χ₀: Manipulação Robusta com Consciência de Recursos via Domesticação de Inconsistências Distribucionais

Resumo

A manipulação robótica de longo horizonte com alta confiabilidade tradicionalmente dependia de dados e poder computacional em larga escala para compreender dinâmicas complexas do mundo real. No entanto, identificamos que o principal gargalo para a robustez no mundo real não é apenas a escala de recursos, mas a mudança distribucional entre a distribuição de demonstrações humanas, o viés indutivo aprendido pela política e a distribuição de execução em tempo de teste — uma inconsistência sistemática que causa erros compostos em tarefas multiestágio. Para mitigar essas inconsistências, propomos χ₀, uma estrutura eficiente em recursos com módulos eficazes designados para alcançar robustez em nível de produção na manipulação robótica. Nossa abordagem é construída sobre três pilares técnicos: (i) Aritmética de Modelos, uma estratégia de fusão no espaço de pesos que absorve eficientemente distribuições diversas de diferentes demonstrações, variando desde aparência de objetos até variações de estado; (ii) Vantagem por Estágio, um estimador de vantagem consciente do estágio que fornece sinais de progresso densos e estáveis, superando a instabilidade numérica de abordagens anteriores não segmentadas por estágios; e (iii) Alinhamento Treino-Implantação, que preenche a lacuna distribucional por meio de aumento espaço-temporal, correções heurísticas do tipo DAgger e suavização temporal por blocos. O χ₀ permite que dois conjuntos de robôs de duplo braço orchestrem colaborativamente a manipulação de peças de vestuário de longo horizonte, abrangendo tarefas desde alisar, dobrar, até pendurar diferentes roupas. Nosso método exibe autonomia de alta confiabilidade; conseguimos executar o sistema a partir de um estado inicial arbitrário por 24 horas consecutivas sem interrupção. Experimentos validam que o χ₀ supera o estado da arte π₀.₅ em taxa de sucesso em quase 250%, utilizando apenas 20 horas de dados e 8 GPUs A100. Código, dados e modelos serão liberados para facilitar a comunidade.

English

High-reliability long-horizon robotic manipulation has traditionally relied on large-scale data and compute to understand complex real-world dynamics. However, we identify that the primary bottleneck to real-world robustness is not resource scale alone, but the distributional shift among the human demonstration distribution, the inductive bias learned by the policy, and the test-time execution distribution -- a systematic inconsistency that causes compounding errors in multi-stage tasks. To mitigate these inconsistencies, we propose χ_{0}, a resource-efficient framework with effective modules designated to achieve production-level robustness in robotic manipulation. Our approach builds off three technical pillars: (i) Model Arithmetic, a weight-space merging strategy that efficiently soaks up diverse distributions of different demonstrations, varying from object appearance to state variations; (ii) Stage Advantage, a stage-aware advantage estimator that provides stable, dense progress signals, overcoming the numerical instability of prior non-stage approaches; and (iii) Train-Deploy Alignment, which bridges the distribution gap via spatio-temporal augmentation, heuristic DAgger corrections, and temporal chunk-wise smoothing. χ_{0} enables two sets of dual-arm robots to collaboratively orchestrate long-horizon garment manipulation, spanning tasks from flattening, folding, to hanging different clothes. Our method exhibits high-reliability autonomy; we are able to run the system from arbitrary initial state for consecutive 24 hours non-stop. Experiments validate that χ_{0} surpasses the state-of-the-art π_{0.5} in success rate by nearly 250%, with only 20-hour data and 8 A100 GPUs. Code, data and models will be released to facilitate the community.

χ₀: Manipulação Robusta com Consciência de Recursos via Domesticação de Inconsistências Distribucionais

χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

Resumo

Support