ChatPaper.aiChatPaper

χ₀: Ressourcenbewusste robuste Manipulation durch Bändigung verteilungsbedingter Inkonsistenzen

χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

February 9, 2026
papers.authors: Checheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan
cs.AI

papers.abstract

Hochzuverlässige robotische Manipulation mit langem Planungshorizont war traditionell auf große Datenmengen und Rechenleistung angewiesen, um komplexe dynamische Prozesse in der realen Welt zu verstehen. Wir stellen jedoch fest, dass der primäre Engpass für Robustheit in der realen Welt nicht allein die Ressourcenskala ist, sondern die Verteilungsverschiebung zwischen der Verteilung menschlicher Demonstrationen, der durch die Policy erlernten induktiven Verzerrung und der Verteilung zur Testzeit – eine systematische Inkonsistenz, die sich verstärkende Fehler in mehrstufigen Aufgaben verursacht. Um diese Inkonsistenzen zu mildern, schlagen wir χ₀ vor, ein ressourceneffizientes Framework mit effektiven Modulen, die entwickelt wurden, um Produktionsniveau-Robustheit in der robotischen Manipulation zu erreichen. Unser Ansatz basiert auf drei technischen Säulen: (i) Model Arithmetic, eine Strategie zur Gewichtsraum-Verschmelzung, die effizient verschiedene Verteilungen unterschiedlicher Demonstrationen aufnimmt, von Objekterscheinungen bis zu Zustandsvariationen; (ii) Stage Advantage, ein stufenbewusster Advantage-Schätzer, der stabile, dichte Fortschrittssignale liefert und die numerische Instabilität früherer stufenunabhängiger Ansätze überwindet; und (iii) Train-Deploy Alignment, das die Verteilungslücke durch räumlich-zeitliche Augmentierung, heuristische DAgger-Korrekturen und glättende zeitliche Stückverarbeitung überbrückt. χ₀ ermöglicht es zwei Sätzen von Zweiarmrobotern, langfristige Textilmanipulation kollaborativ zu orchestrieren, von Aufgaben des Glättens und Faltens bis zum Aufhängen verschiedener Kleidungsstücke. Unsere Methode zeigt hochzuverlässige Autonomie; wir sind in der Lage, das System ab einem beliebigen Ausgangszustand 24 Stunden ununterbrochen laufen zu lassen. Experimente bestätigen, dass χ₀ den State-of-the-Art π₀.₅ in der Erfolgsrate um fast 250% übertrifft, mit nur 20 Stunden Daten und 8 A100 GPUs. Code, Daten und Modelle werden veröffentlicht, um die Gemeinschaft zu unterstützen.
English
High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics. However, we identify that the primary bottleneck to real-world robustness is not resource scale alone, but the distributional shift among the human demonstration distribution, the inductive bias learned by the policy, and the test-time execution distribution -- a systematic inconsistency that causes compounding errors in multi-stage tasks. To mitigate these inconsistencies, we propose χ_{0}, a resource-efficient framework with effective modules designated to achieve production-level robustness in robotic manipulation. Our approach builds off three technical pillars: (i) Model Arithmetic, a weight-space merging strategy that efficiently soaks up diverse distributions of different demonstrations, varying from object appearance to state variations; (ii) Stage Advantage, a stage-aware advantage estimator that provides stable, dense progress signals, overcoming the numerical instability of prior non-stage approaches; and (iii) Train-Deploy Alignment, which bridges the distribution gap via spatio-temporal augmentation, heuristic DAgger corrections, and temporal chunk-wise smoothing. χ_{0} enables two sets of dual-arm robots to collaboratively orchestrate long-horizon garment manipulation, spanning tasks from flattening, folding, to hanging different clothes. Our method exhibits high-reliability autonomy; we are able to run the system from arbitrary initial state for consecutive 24 hours non-stop. Experiments validate that χ_{0} surpasses the state-of-the-art π_{0.5} in success rate by nearly 250%, with only 20-hour data and 8 A100 GPUs. Code, data and models will be released to facilitate the community.
PDF161February 14, 2026