χ₀ : Manipulation Robuste Sensible aux Ressources par la Maîtrise des Incohérences Distributionnelles
χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies
February 9, 2026
papers.authors: Checheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan
cs.AI
papers.abstract
La manipulation robotique fiable à long terme a traditionnellement reposé sur des données et une puissance de calcul massives pour appréhender la dynamique complexe du monde réel. Cependant, nous identifions que le principal goulot d'étranglement pour la robustesse en conditions réelles n'est pas seulement l'échelle des ressources, mais le décalage distributionnel entre la distribution des démonstrations humaines, le biais inductif appris par la politique et la distribution d'exécution lors des tests – une incohérence systématique qui provoque des erreurs cumulatives dans les tâches multi-étapes. Pour atténuer ces incohérences, nous proposons χ₀, un cadre économe en ressources doté de modules efficaces conçus pour atteindre une robustesse de niveau production en manipulation robotique. Notre approche repose sur trois piliers techniques : (i) l'Arithmétique des Modèles, une stratégie de fusion dans l'espace des poids qui assimile efficacement des distributions diverses issues de différentes démonstrations, allant de l'apparence des objets aux variations d'état ; (ii) l'Avantage par Étape, un estimateur d'avantage conscient des étapes qui fournit des signaux de progression denses et stables, surmontant l'instabilité numérique des approches non segmentées antérieures ; et (iii) l'Alignement Entraînement-Déploiement, qui comble l'écart distributionnel via une augmentation spatio-temporelle, des corrections heuristiques de type DAgger et un lissage temporel par tronçons. χ₀ permet à deux paires de robots bi-manuels d'orchestrer collaborativement une manipulation de vêtements à long terme, couvrant des tâches allant de l'aplatissement et du pliage jusqu'à la suspension de différents vêtements. Notre méthode présente une autonomie très fiable ; nous pouvons exécuter le système à partir d'un état initial arbitraire pendant 24 heures consécutives sans interruption. Les expériences valident que χ₀ surpasse l'état de l'art π₀.₅ en taux de réussite de près de 250 %, avec seulement 20 heures de données et 8 GPU A100. Le code, les données et les modèles seront publiés pour faciliter les travaux de la communauté.
English
High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics. However, we identify that the primary bottleneck to real-world robustness is not resource scale alone, but the distributional shift among the human demonstration distribution, the inductive bias learned by the policy, and the test-time execution distribution -- a systematic inconsistency that causes compounding errors in multi-stage tasks. To mitigate these inconsistencies, we propose χ_{0}, a resource-efficient framework with effective modules designated to achieve production-level robustness in robotic manipulation. Our approach builds off three technical pillars: (i) Model Arithmetic, a weight-space merging strategy that efficiently soaks up diverse distributions of different demonstrations, varying from object appearance to state variations; (ii) Stage Advantage, a stage-aware advantage estimator that provides stable, dense progress signals, overcoming the numerical instability of prior non-stage approaches; and (iii) Train-Deploy Alignment, which bridges the distribution gap via spatio-temporal augmentation, heuristic DAgger corrections, and temporal chunk-wise smoothing. χ_{0} enables two sets of dual-arm robots to collaboratively orchestrate long-horizon garment manipulation, spanning tasks from flattening, folding, to hanging different clothes. Our method exhibits high-reliability autonomy; we are able to run the system from arbitrary initial state for consecutive 24 hours non-stop. Experiments validate that χ_{0} surpasses the state-of-the-art π_{0.5} in success rate by nearly 250%, with only 20-hour data and 8 A100 GPUs. Code, data and models will be released to facilitate the community.