χ₀: Manipulação Robusta com Consciência de Recursos via Domesticação de Inconsistências Distribucionais
χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies
February 9, 2026
Autores: Checheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan
cs.AI
Resumo
A manipulação robótica de longo horizonte com alta confiabilidade tradicionalmente dependia de dados e poder computacional em larga escala para compreender dinâmicas complexas do mundo real. No entanto, identificamos que o principal gargalo para a robustez no mundo real não é apenas a escala de recursos, mas a mudança distribucional entre a distribuição de demonstrações humanas, o viés indutivo aprendido pela política e a distribuição de execução em tempo de teste — uma inconsistência sistemática que causa erros compostos em tarefas multiestágio. Para mitigar essas inconsistências, propomos χ₀, uma estrutura eficiente em recursos com módulos eficazes designados para alcançar robustez em nível de produção na manipulação robótica. Nossa abordagem é construída sobre três pilares técnicos: (i) Aritmética de Modelos, uma estratégia de fusão no espaço de pesos que absorve eficientemente distribuições diversas de diferentes demonstrações, variando desde aparência de objetos até variações de estado; (ii) Vantagem por Estágio, um estimador de vantagem consciente do estágio que fornece sinais de progresso densos e estáveis, superando a instabilidade numérica de abordagens anteriores não segmentadas por estágios; e (iii) Alinhamento Treino-Implantação, que preenche a lacuna distribucional por meio de aumento espaço-temporal, correções heurísticas do tipo DAgger e suavização temporal por blocos. O χ₀ permite que dois conjuntos de robôs de duplo braço orchestrem colaborativamente a manipulação de peças de vestuário de longo horizonte, abrangendo tarefas desde alisar, dobrar, até pendurar diferentes roupas. Nosso método exibe autonomia de alta confiabilidade; conseguimos executar o sistema a partir de um estado inicial arbitrário por 24 horas consecutivas sem interrupção. Experimentos validam que o χ₀ supera o estado da arte π₀.₅ em taxa de sucesso em quase 250%, utilizando apenas 20 horas de dados e 8 GPUs A100. Código, dados e modelos serão liberados para facilitar a comunidade.
English
High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics. However, we identify that the primary bottleneck to real-world robustness is not resource scale alone, but the distributional shift among the human demonstration distribution, the inductive bias learned by the policy, and the test-time execution distribution -- a systematic inconsistency that causes compounding errors in multi-stage tasks. To mitigate these inconsistencies, we propose χ_{0}, a resource-efficient framework with effective modules designated to achieve production-level robustness in robotic manipulation. Our approach builds off three technical pillars: (i) Model Arithmetic, a weight-space merging strategy that efficiently soaks up diverse distributions of different demonstrations, varying from object appearance to state variations; (ii) Stage Advantage, a stage-aware advantage estimator that provides stable, dense progress signals, overcoming the numerical instability of prior non-stage approaches; and (iii) Train-Deploy Alignment, which bridges the distribution gap via spatio-temporal augmentation, heuristic DAgger corrections, and temporal chunk-wise smoothing. χ_{0} enables two sets of dual-arm robots to collaboratively orchestrate long-horizon garment manipulation, spanning tasks from flattening, folding, to hanging different clothes. Our method exhibits high-reliability autonomy; we are able to run the system from arbitrary initial state for consecutive 24 hours non-stop. Experiments validate that χ_{0} surpasses the state-of-the-art π_{0.5} in success rate by nearly 250%, with only 20-hour data and 8 A100 GPUs. Code, data and models will be released to facilitate the community.