Composição de Dados com Consciência de Fidelidade para Generalização Robusta de Robôs
Fidelity-Aware Data Composition for Robust Robot Generalization
September 29, 2025
Autores: Zizhao Tong, Di Chen, Sicheng Hu, Hongwei Fan, Liliang Chen, Guanghui Ren, Hao Tang, Hao Dong, Ling Shao
cs.AI
Resumo
Políticas de robôs generalistas treinadas em conjuntos de dados em larga escala e visualmente homogêneos podem ser suscetíveis ao aprendizado por atalhos, o que prejudica sua generalização fora da distribuição (OOD). Embora a ampliação de dados generativa seja uma abordagem comum para introduzir diversidade, ela apresenta um desafio sutil: a composição dos dados. Misturar de forma ingênua dados reais e sintéticos pode corromper o sinal de aprendizado, pois esse processo frequentemente prioriza a diversidade visual em detrimento da fidelidade da informação. Este artigo sugere que a generalização robusta depende de uma composição de dados fundamentada e consciente da fidelidade. Introduzimos o Ajuste de Fidelidade de Informação Coerente (CIFT), uma estrutura que trata a composição de dados como um problema de otimização. O CIFT utiliza um proxy prático para a Fidelidade de Informação baseado na geometria do espaço de características de um conjunto de dados. Isso permite a identificação de uma transição de fase, denominada Ponto de Descoerência, onde a estabilidade do treinamento se degrada. A estrutura inclui um motor generativo, Ampliação de Vídeo Multi-Visualização (MVAug), para sintetizar um espectro de dados causalmente desembaraçado para esse processo de ajuste. A aplicação do CIFT em arquiteturas de políticas como pi_0 e Diffusion Policy melhora as taxas de sucesso OOD em mais de 54%. Esses resultados indicam que a composição consciente da fidelidade, além da síntese de dados isoladamente, é um componente importante para o desenvolvimento de robôs robustos e de propósito geral.
English
Generalist robot policies trained on large-scale, visually homogeneous
datasets can be susceptible to shortcut learning, which impairs their
out-of-distribution (OOD) generalization. While generative data augmentation is
a common approach to introduce diversity, it presents a subtle challenge: data
composition. Naively mixing real and synthetic data can corrupt the learning
signal, as this process often prioritizes visual diversity at the expense of
information fidelity. This paper suggests that robust generalization depends on
principled, fidelity-aware data composition. We introduce Coherent Information
Fidelity Tuning (CIFT), a framework that treats data composition as an
optimization problem. CIFT uses a practical proxy for Information Fidelity
based on the feature-space geometry of a dataset. This enables the
identification of a phase transition, termed the Decoherence Point, where
training stability degrades. The framework includes a generative engine,
Multi-View Video Augmentation (MVAug), to synthesize a causally disentangled
data spectrum for this tuning process. Applying CIFT to policy architectures
such as pi_0 and Diffusion Policy improves OOD success rates by over 54\%.
These results indicate that fidelity-aware composition, beyond data synthesis
alone, is an important component for developing robust, general-purpose robots.