χ₀: Manipolazione Robusta Consapevole delle Risorse tramite l'Addomesticamento delle Incoerenze Distribuzionali

Abstract

La manipolazione robotica affidabile a lungo termine ha tradizionalmente fatto affidamento su dati e potenza di calcolo su larga scala per comprendere le dinamiche complesse del mondo reale. Tuttavia, identifichiamo che il collo di bottiglia principale per la robustezza nel mondo reale non è solo la scala delle risorse, ma lo spostamento distributivo tra la distribuzione delle dimostrazioni umane, il bias induttivo appreso dalla policy e la distribuzione di esecuzione durante il test – un'incongruenza sistematica che causa errori cumulativi in compiti multi-stadio. Per mitigare queste incongruenze, proponiamo χ₀, un framework efficiente dal punto di vista delle risorse con moduli efficaci progettati per ottenere una robustezza a livello produttivo nella manipolazione robotica. Il nostro approccio si basa su tre pilastri tecnici: (i) Model Arithmetic, una strategia di fusione nello spazio dei pesi che assimila efficientemente distribuzioni diverse delle varie dimostrazioni, che variano dall'aspetto dell'oggetto alle variazioni di stato; (ii) Stage Advantage, un estimatore del vantaggio consapevole dello stadio che fornisce segnali di progresso stabili e densi, superando l'instabilità numerica dei precedenti approcci non stadiali; e (iii) Train-Deploy Alignment, che colma il divario distributivo tramite aumentazione spaziotemporale, correzioni euristiche DAgger e livellamento temporale a blocchi. χ₀ consente a due set di robot a doppio braccio di orchestrare collaborativamente la manipuzione di capi d'abbigliamento a lungo termine, coprendo compiti dalla distensione, piegatura, all'appeso di diversi indumenti. Il nostro metodo mostra un'elevata affidabilità autonoma; siamo in grado di eseguire il sistema partendo da uno stato iniziale arbitrario per 24 ore consecutive senza interruzioni. Gli esperimenti convalidano che χ₀ supera lo stato dell'arte π₀.₅ nel tasso di successo di quasi il 250%, utilizzando solo 20 ore di dati e 8 GPU A100. Codice, dati e modelli saranno rilasciati per favorire la comunità.

English

High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics. However, we identify that the primary bottleneck to real-world robustness is not resource scale alone, but the distributional shift among the human demonstration distribution, the inductive bias learned by the policy, and the test-time execution distribution -- a systematic inconsistency that causes compounding errors in multi-stage tasks. To mitigate these inconsistencies, we propose χ_{0}, a resource-efficient framework with effective modules designated to achieve production-level robustness in robotic manipulation. Our approach builds off three technical pillars: (i) Model Arithmetic, a weight-space merging strategy that efficiently soaks up diverse distributions of different demonstrations, varying from object appearance to state variations; (ii) Stage Advantage, a stage-aware advantage estimator that provides stable, dense progress signals, overcoming the numerical instability of prior non-stage approaches; and (iii) Train-Deploy Alignment, which bridges the distribution gap via spatio-temporal augmentation, heuristic DAgger corrections, and temporal chunk-wise smoothing. χ_{0} enables two sets of dual-arm robots to collaboratively orchestrate long-horizon garment manipulation, spanning tasks from flattening, folding, to hanging different clothes. Our method exhibits high-reliability autonomy; we are able to run the system from arbitrary initial state for consecutive 24 hours non-stop. Experiments validate that χ_{0} surpasses the state-of-the-art π_{0.5} in success rate by nearly 250%, with only 20-hour data and 8 A100 GPUs. Code, data and models will be released to facilitate the community.

χ₀: Manipolazione Robusta Consapevole delle Risorse tramite l'Addomesticamento delle Incoerenze Distribuzionali

χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

Abstract

Support