χ₀: Управление ресурсами для устойчивого манипулирования путем устранения распределительных несоответствий
χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies
February 9, 2026
Авторы: Checheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan
cs.AI
Аннотация
Высоконадежное манипулирование объектами роботами с длительным горизонтом планирования традиционно опиралось на большие объемы данных и вычислительные ресурсы для понимания сложной динамики реального мира. Однако мы установили, что основным препятствием к достижению устойчивости в реальных условиях является не только масштаб ресурсов, но и сдвиг распределения между распределением демонстраций человека, индуктивным смещением, усвоенным политикой, и распределением выполнения на этапе тестирования — системное несоответствие, которое вызывает накапливающиеся ошибки в многоэтапных задачах. Для смягчения этих несоответствий мы предлагаем χ₀, ресурсоэффективный фреймворк с эффективными модулями, предназначенный для достижения промышленного уровня надежности в роботизированном манипулировании. Наш подход основывается на трех технических столпах: (i) Модельная арифметика — стратегия слияния в пространстве весов, которая эффективно усваивает разнообразные распределения различных демонстраций, от вариаций внешнего вида объектов до вариаций состояний; (ii) Поэтапное преимущество — оценщик преимущества с учетом этапов, который обеспечивает стабильные, плотные сигналы прогресса, преодолевая численную нестабильность предыдущих непоэтапных подходов; и (iii) Согласование обучения и развертывания, которое устраняет разрыв распределений с помощью пространственно-временной аугментации, эвристических коррекций DAgger и временного сглаживания по фрагментам. χ₀ позволяет двум наборам двухруких роботов совместно выполнять манипуляции с одеждой с длительным горизонтом, включая задачи от разглаживания и складывания до развешивания различной одежды. Наш метод демонстрирует высоконадежную автономность; мы можем запускать систему из произвольного начального состояния непрерывно в течение 24 часов подряд. Эксперименты подтверждают, что χ₀ превосходит современный метод π₀.₅ по проценту успешных выполнений почти на 250%, используя лишь 20 часов данных и 8 GPU A100. Код, данные и модели будут опубликованы для содействия научному сообществу.
English
High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics. However, we identify that the primary bottleneck to real-world robustness is not resource scale alone, but the distributional shift among the human demonstration distribution, the inductive bias learned by the policy, and the test-time execution distribution -- a systematic inconsistency that causes compounding errors in multi-stage tasks. To mitigate these inconsistencies, we propose χ_{0}, a resource-efficient framework with effective modules designated to achieve production-level robustness in robotic manipulation. Our approach builds off three technical pillars: (i) Model Arithmetic, a weight-space merging strategy that efficiently soaks up diverse distributions of different demonstrations, varying from object appearance to state variations; (ii) Stage Advantage, a stage-aware advantage estimator that provides stable, dense progress signals, overcoming the numerical instability of prior non-stage approaches; and (iii) Train-Deploy Alignment, which bridges the distribution gap via spatio-temporal augmentation, heuristic DAgger corrections, and temporal chunk-wise smoothing. χ_{0} enables two sets of dual-arm robots to collaboratively orchestrate long-horizon garment manipulation, spanning tasks from flattening, folding, to hanging different clothes. Our method exhibits high-reliability autonomy; we are able to run the system from arbitrary initial state for consecutive 24 hours non-stop. Experiments validate that χ_{0} surpasses the state-of-the-art π_{0.5} in success rate by nearly 250%, with only 20-hour data and 8 A100 GPUs. Code, data and models will be released to facilitate the community.