χ₀: Manipolazione Robusta Consapevole delle Risorse tramite l'Addomesticamento delle Incoerenze Distribuzionali
χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies
February 9, 2026
Autori: Checheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan
cs.AI
Abstract
La manipolazione robotica affidabile a lungo termine ha tradizionalmente fatto affidamento su dati e potenza di calcolo su larga scala per comprendere le dinamiche complesse del mondo reale. Tuttavia, identifichiamo che il collo di bottiglia principale per la robustezza nel mondo reale non è solo la scala delle risorse, ma lo spostamento distributivo tra la distribuzione delle dimostrazioni umane, il bias induttivo appreso dalla policy e la distribuzione di esecuzione durante il test – un'incongruenza sistematica che causa errori cumulativi in compiti multi-stadio. Per mitigare queste incongruenze, proponiamo χ₀, un framework efficiente dal punto di vista delle risorse con moduli efficaci progettati per ottenere una robustezza a livello produttivo nella manipolazione robotica. Il nostro approccio si basa su tre pilastri tecnici: (i) Model Arithmetic, una strategia di fusione nello spazio dei pesi che assimila efficientemente distribuzioni diverse delle varie dimostrazioni, che variano dall'aspetto dell'oggetto alle variazioni di stato; (ii) Stage Advantage, un estimatore del vantaggio consapevole dello stadio che fornisce segnali di progresso stabili e densi, superando l'instabilità numerica dei precedenti approcci non stadiali; e (iii) Train-Deploy Alignment, che colma il divario distributivo tramite aumentazione spaziotemporale, correzioni euristiche DAgger e livellamento temporale a blocchi. χ₀ consente a due set di robot a doppio braccio di orchestrare collaborativamente la manipuzione di capi d'abbigliamento a lungo termine, coprendo compiti dalla distensione, piegatura, all'appeso di diversi indumenti. Il nostro metodo mostra un'elevata affidabilità autonoma; siamo in grado di eseguire il sistema partendo da uno stato iniziale arbitrario per 24 ore consecutive senza interruzioni. Gli esperimenti convalidano che χ₀ supera lo stato dell'arte π₀.₅ nel tasso di successo di quasi il 250%, utilizzando solo 20 ore di dati e 8 GPU A100. Codice, dati e modelli saranno rilasciati per favorire la comunità.
English
High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics. However, we identify that the primary bottleneck to real-world robustness is not resource scale alone, but the distributional shift among the human demonstration distribution, the inductive bias learned by the policy, and the test-time execution distribution -- a systematic inconsistency that causes compounding errors in multi-stage tasks. To mitigate these inconsistencies, we propose χ_{0}, a resource-efficient framework with effective modules designated to achieve production-level robustness in robotic manipulation. Our approach builds off three technical pillars: (i) Model Arithmetic, a weight-space merging strategy that efficiently soaks up diverse distributions of different demonstrations, varying from object appearance to state variations; (ii) Stage Advantage, a stage-aware advantage estimator that provides stable, dense progress signals, overcoming the numerical instability of prior non-stage approaches; and (iii) Train-Deploy Alignment, which bridges the distribution gap via spatio-temporal augmentation, heuristic DAgger corrections, and temporal chunk-wise smoothing. χ_{0} enables two sets of dual-arm robots to collaboratively orchestrate long-horizon garment manipulation, spanning tasks from flattening, folding, to hanging different clothes. Our method exhibits high-reliability autonomy; we are able to run the system from arbitrary initial state for consecutive 24 hours non-stop. Experiments validate that χ_{0} surpasses the state-of-the-art π_{0.5} in success rate by nearly 250%, with only 20-hour data and 8 A100 GPUs. Code, data and models will be released to facilitate the community.