Composition de données consciente de la fidélité pour une généralisation robuste des robots
Fidelity-Aware Data Composition for Robust Robot Generalization
September 29, 2025
papers.authors: Zizhao Tong, Di Chen, Sicheng Hu, Hongwei Fan, Liliang Chen, Guanghui Ren, Hao Tang, Hao Dong, Ling Shao
cs.AI
papers.abstract
Les politiques de robots généralistes entraînées sur des ensembles de données à grande échelle et visuellement homogènes peuvent être sujettes à l'apprentissage par raccourci, ce qui compromet leur généralisation hors distribution (OOD). Bien que l'augmentation générative des données soit une approche courante pour introduire de la diversité, elle présente un défi subtil : la composition des données. Un mélange naïf de données réelles et synthétiques peut corrompre le signal d'apprentissage, car ce processus privilégie souvent la diversité visuelle au détriment de la fidélité de l'information. Cet article suggère qu'une généralisation robuste dépend d'une composition de données fondée sur des principes et consciente de la fidélité. Nous introduisons le Réglage Cohérent de la Fidélité de l'Information (CIFT), un cadre qui traite la composition des données comme un problème d'optimisation. CIFT utilise un proxy pratique pour la Fidélité de l'Information basé sur la géométrie de l'espace des caractéristiques d'un ensemble de données. Cela permet d'identifier une transition de phase, appelée Point de Décohérence, où la stabilité de l'entraînement se dégrade. Le cadre inclut un moteur génératif, l'Augmentation Vidéo Multi-Vues (MVAug), pour synthétiser un spectre de données causalement désentrelacé pour ce processus de réglage. L'application de CIFT à des architectures de politiques telles que pi_0 et Diffusion Policy améliore les taux de réussite OOD de plus de 54 %. Ces résultats indiquent qu'une composition consciente de la fidélité, au-delà de la seule synthèse de données, est un élément important pour développer des robots robustes et polyvalents.
English
Generalist robot policies trained on large-scale, visually homogeneous
datasets can be susceptible to shortcut learning, which impairs their
out-of-distribution (OOD) generalization. While generative data augmentation is
a common approach to introduce diversity, it presents a subtle challenge: data
composition. Naively mixing real and synthetic data can corrupt the learning
signal, as this process often prioritizes visual diversity at the expense of
information fidelity. This paper suggests that robust generalization depends on
principled, fidelity-aware data composition. We introduce Coherent Information
Fidelity Tuning (CIFT), a framework that treats data composition as an
optimization problem. CIFT uses a practical proxy for Information Fidelity
based on the feature-space geometry of a dataset. This enables the
identification of a phase transition, termed the Decoherence Point, where
training stability degrades. The framework includes a generative engine,
Multi-View Video Augmentation (MVAug), to synthesize a causally disentangled
data spectrum for this tuning process. Applying CIFT to policy architectures
such as pi_0 and Diffusion Policy improves OOD success rates by over 54\%.
These results indicate that fidelity-aware composition, beyond data synthesis
alone, is an important component for developing robust, general-purpose robots.