ChatPaper.aiChatPaper

χ₀: 分布的不整合性の制御によるリソースを考慮したロバストなマニピュレーション

χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

February 9, 2026
著者: Checheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan
cs.AI

要旨

高信頼性の長視野ロボットマニピュレーションは、従来、複雑な実世界のダイナミクスを理解するために大規模なデータと計算資源に依存してきた。しかし我々は、実世界での頑健性の主要なボトルネックが単なるリソース規模ではなく、人間による実演データの分布、方策によって学習された帰納的バイアス、およびテスト時実行分布の間の分布的シフト——多段階タスクにおいて誤差を累積させる系統的な不一致——であることを見出した。これらの不一致を軽減するため、我々はロボットマニピュレーションにおいて製品レベルの頑健性を達成するために設計された効果的なモジュールを備えた、リソース効率の良いフレームワークχ_{0}を提案する。我々のアプローチは以下の3つの技術的柱に基づいている:(i) **モデル算術**:物体の外観から状態変動まで様々な実演データの多様な分布を効率的に吸収する、重み空間マージング戦略。(ii) **段階アドバンテージ**:従来の非段階的アプローチの数値的不安定性を克服し、安定した高密度の進捗信号を提供する、段階を考慮したアドバンテージ推定器。(iii) **学習-展開整合**:時空間的拡張、ヒューリスティックなDAgger補正、時間的チャンク単位の平滑化により分布的ギャップを埋める手法。χ_{0}により、2組のデュアルアームロボットが協調して長視野の衣類操作(平坦化、折り畳み、ハンガー掛けなど)を遂行できる。本手法は高い信頼性の自律性を示し、任意の初期状態から連続24時間非停止でシステムを動作させることに成功した。実験により、χ_{0}が20時間のデータと8つのA100 GPUのみで、最先端のπ_{0.5}を成功率で約250%上回ることを検証した。コード、データ、モデルはコミュニティの発展のために公開予定である。
English
High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics. However, we identify that the primary bottleneck to real-world robustness is not resource scale alone, but the distributional shift among the human demonstration distribution, the inductive bias learned by the policy, and the test-time execution distribution -- a systematic inconsistency that causes compounding errors in multi-stage tasks. To mitigate these inconsistencies, we propose χ_{0}, a resource-efficient framework with effective modules designated to achieve production-level robustness in robotic manipulation. Our approach builds off three technical pillars: (i) Model Arithmetic, a weight-space merging strategy that efficiently soaks up diverse distributions of different demonstrations, varying from object appearance to state variations; (ii) Stage Advantage, a stage-aware advantage estimator that provides stable, dense progress signals, overcoming the numerical instability of prior non-stage approaches; and (iii) Train-Deploy Alignment, which bridges the distribution gap via spatio-temporal augmentation, heuristic DAgger corrections, and temporal chunk-wise smoothing. χ_{0} enables two sets of dual-arm robots to collaboratively orchestrate long-horizon garment manipulation, spanning tasks from flattening, folding, to hanging different clothes. Our method exhibits high-reliability autonomy; we are able to run the system from arbitrary initial state for consecutive 24 hours non-stop. Experiments validate that χ_{0} surpasses the state-of-the-art π_{0.5} in success rate by nearly 250%, with only 20-hour data and 8 A100 GPUs. Code, data and models will be released to facilitate the community.
PDF161February 14, 2026