Composición de Datos Consciente de la Fidelidad para una Generalización Robusta en Robótica
Fidelity-Aware Data Composition for Robust Robot Generalization
September 29, 2025
Autores: Zizhao Tong, Di Chen, Sicheng Hu, Hongwei Fan, Liliang Chen, Guanghui Ren, Hao Tang, Hao Dong, Ling Shao
cs.AI
Resumen
Las políticas de robots generalistas entrenadas en conjuntos de datos a gran escala y visualmente homogéneos pueden ser susceptibles al aprendizaje de atajos, lo que perjudica su generalización fuera de distribución (OOD, por sus siglas en inglés). Si bien la ampliación de datos generativa es un enfoque común para introducir diversidad, presenta un desafío sutil: la composición de datos. Mezclar de manera ingenua datos reales y sintéticos puede corromper la señal de aprendizaje, ya que este proceso a menudo prioriza la diversidad visual a expensas de la fidelidad de la información. Este artículo sugiere que una generalización robusta depende de una composición de datos fundamentada y consciente de la fidelidad. Introducimos el Ajuste de Fidelidad de Información Coherente (CIFT, por sus siglas en inglés), un marco que trata la composición de datos como un problema de optimización. CIFT utiliza un proxy práctico para la Fidelidad de Información basado en la geometría del espacio de características de un conjunto de datos. Esto permite identificar una transición de fase, denominada Punto de Decoherencia, donde la estabilidad del entrenamiento se degrada. El marco incluye un motor generativo, Ampliación de Video Multi-Vista (MVAug, por sus siglas en inglés), para sintetizar un espectro de datos causalmente desenredado para este proceso de ajuste. La aplicación de CIFT a arquitecturas de políticas como pi_0 y Diffusion Policy mejora las tasas de éxito OOD en más de un 54%. Estos resultados indican que la composición consciente de la fidelidad, más allá de la síntesis de datos por sí sola, es un componente importante para desarrollar robots robustos y de propósito general.
English
Generalist robot policies trained on large-scale, visually homogeneous
datasets can be susceptible to shortcut learning, which impairs their
out-of-distribution (OOD) generalization. While generative data augmentation is
a common approach to introduce diversity, it presents a subtle challenge: data
composition. Naively mixing real and synthetic data can corrupt the learning
signal, as this process often prioritizes visual diversity at the expense of
information fidelity. This paper suggests that robust generalization depends on
principled, fidelity-aware data composition. We introduce Coherent Information
Fidelity Tuning (CIFT), a framework that treats data composition as an
optimization problem. CIFT uses a practical proxy for Information Fidelity
based on the feature-space geometry of a dataset. This enables the
identification of a phase transition, termed the Decoherence Point, where
training stability degrades. The framework includes a generative engine,
Multi-View Video Augmentation (MVAug), to synthesize a causally disentangled
data spectrum for this tuning process. Applying CIFT to policy architectures
such as pi_0 and Diffusion Policy improves OOD success rates by over 54\%.
These results indicate that fidelity-aware composition, beyond data synthesis
alone, is an important component for developing robust, general-purpose robots.