ChatPaper.aiChatPaper

χ₀: Manipulación Robusta con Conciencia de Recursos mediante la Domesticación de Inconsistencias Distribucionales

χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

February 9, 2026
Autores: Checheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan
cs.AI

Resumen

La manipulación robótica de alto rendimiento y largo horizonte ha dependido tradicionalmente de grandes volúmenes de datos y capacidad computacional para comprender las dinámicas complejas del mundo real. Sin embargo, identificamos que el principal cuello de botella para la robustez en entornos reales no es solo la escala de recursos, sino el desplazamiento distribucional entre la distribución de demostraciones humanas, el sesgo inductivo aprendido por la política y la distribución de ejecución durante las pruebas: una inconsistencia sistemática que provoca errores acumulativos en tareas multi-etapa. Para mitigar estas inconsistencias, proponemos χ₀, un marco eficiente en recursos con módulos efectivos diseñados para alcanzar una robustez a nivel de producción en manipulación robótica. Nuestro enfoque se basa en tres pilares técnicos: (i) Aritmética de Modelos, una estrategia de fusión en el espacio de pesos que absorbe eficientemente distribuciones diversas de diferentes demostraciones, desde variaciones en apariencia de objetos hasta variaciones de estado; (ii) Ventaja por Etapa, un estimador de ventaja consciente de la etapa que proporciona señales de progreso estables y densas, superando la inestabilidad numérica de enfoques previos no segmentados; y (iii) Alineación Entrenamiento-Despliegue, que salva la brecha distribucional mediante aumentación espacio-temporal, correcciones heurísticas tipo DAgger y suavizado temporal por fragmentos. χ₀ permite que dos conjuntos de robots de doble brazo orquesten colaborativamente la manipulación de prendas de vestir de largo horizonte, abarcando tareas desde aplanar, plegar, hasta colgar diferentes prendas. Nuestro método exhibe una autonomía de alta confiabilidad; podemos ejecutar el sistema desde un estado inicial arbitrario durante 24 horas consecutivas sin interrupciones. Los experimentos validan que χ₀ supera al estado del arte π₀.₅ en tasa de éxito en casi un 250%, utilizando solo 20 horas de datos y 8 GPUs A100. El código, datos y modelos serán liberados para facilitar a la comunidad.
English
High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics. However, we identify that the primary bottleneck to real-world robustness is not resource scale alone, but the distributional shift among the human demonstration distribution, the inductive bias learned by the policy, and the test-time execution distribution -- a systematic inconsistency that causes compounding errors in multi-stage tasks. To mitigate these inconsistencies, we propose χ_{0}, a resource-efficient framework with effective modules designated to achieve production-level robustness in robotic manipulation. Our approach builds off three technical pillars: (i) Model Arithmetic, a weight-space merging strategy that efficiently soaks up diverse distributions of different demonstrations, varying from object appearance to state variations; (ii) Stage Advantage, a stage-aware advantage estimator that provides stable, dense progress signals, overcoming the numerical instability of prior non-stage approaches; and (iii) Train-Deploy Alignment, which bridges the distribution gap via spatio-temporal augmentation, heuristic DAgger corrections, and temporal chunk-wise smoothing. χ_{0} enables two sets of dual-arm robots to collaboratively orchestrate long-horizon garment manipulation, spanning tasks from flattening, folding, to hanging different clothes. Our method exhibits high-reliability autonomy; we are able to run the system from arbitrary initial state for consecutive 24 hours non-stop. Experiments validate that χ_{0} surpasses the state-of-the-art π_{0.5} in success rate by nearly 250%, with only 20-hour data and 8 A100 GPUs. Code, data and models will be released to facilitate the community.
PDF161February 14, 2026