ChatPaper.aiChatPaper

χ_{0}: 자원 인식 강건 조작: 분포 불일치 제어를 통한 접근

χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

February 9, 2026
저자: Checheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan
cs.AI

초록

고신뢰성 장기계획 로봇 매니퓰레이션은 전통적으로 복잡한 실제 세계 역학을 이해하기 위해 대규모 데이터와 컴퓨팅 자원에 의존해왔습니다. 그러나 우리는 실제 세계 강건성의 주요 병목 현상이 자원 규모만이 아니라 인간 시연 데이터 분포, 정책이 학습한 귀납적 편향, 실행 시험 분포 간의 분포 변화—다단계 작업에서 누적 오류를 유발하는 체계적 불일치—에 있음을 규명했습니다. 이러한 불일치를 완화하기 위해 우리는 로봇 매니퓰레이션에서 생산 수준의 강건성을 달성하기 위해 설계된 효율적인 모듈을 갖춘 자원 효율적 프레임워크 χ₀를 제안합니다. 우리의 접근법은 세 가지 기술적 기둥에 기반합니다: (i) 객체 외관부터 상태 변이까지 다양한 시연 데이터 분포를 효율적으로 흡수하는 가중치 공간 통합 전략인 Model Arithmetic; (ii) 기존 비단계적 접근법의 수치적 불안정성을 극복하고 안정적이며 밀집된 진행 신호를 제공하는 단계 인식 Advantage 추정기인 Stage Advantage; (iii) 시공간 증강, 휴리스틱 DAgger 수정 및 시간적 청크 단위 평활화를 통해 분포 차이를 해소하는 Train-Deploy Alignment. χ₀는 두 세트의 듀얼암 로봇이 다양한 의류의 평탄화, 접기, 걸기까지 이르는 장기계획 의류 조작 작업을 협력적으로 수행할 수 있게 합니다. 우리 방법은 높은 신뢰성의 자율성을 보여주며, 임의의 초기 상태에서 시스템을 24시간 연속 비정지 운영할 수 있습니다. 실험 결과 χ₀는 최신 기술인 π_{0.5} 대비 성공률을 약 250% 향상시키며, 단 20시간 데이터와 8개의 A100 GPU만으로 이를 달성함을 검증했습니다. 코드, 데이터 및 모델은 커뮤니티 활성화를 위해 공개될 예정입니다.
English
High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics. However, we identify that the primary bottleneck to real-world robustness is not resource scale alone, but the distributional shift among the human demonstration distribution, the inductive bias learned by the policy, and the test-time execution distribution -- a systematic inconsistency that causes compounding errors in multi-stage tasks. To mitigate these inconsistencies, we propose χ_{0}, a resource-efficient framework with effective modules designated to achieve production-level robustness in robotic manipulation. Our approach builds off three technical pillars: (i) Model Arithmetic, a weight-space merging strategy that efficiently soaks up diverse distributions of different demonstrations, varying from object appearance to state variations; (ii) Stage Advantage, a stage-aware advantage estimator that provides stable, dense progress signals, overcoming the numerical instability of prior non-stage approaches; and (iii) Train-Deploy Alignment, which bridges the distribution gap via spatio-temporal augmentation, heuristic DAgger corrections, and temporal chunk-wise smoothing. χ_{0} enables two sets of dual-arm robots to collaboratively orchestrate long-horizon garment manipulation, spanning tasks from flattening, folding, to hanging different clothes. Our method exhibits high-reliability autonomy; we are able to run the system from arbitrary initial state for consecutive 24 hours non-stop. Experiments validate that χ_{0} surpasses the state-of-the-art π_{0.5} in success rate by nearly 250%, with only 20-hour data and 8 A100 GPUs. Code, data and models will be released to facilitate the community.
PDF161February 14, 2026