Composizione Dati Consapevole della Fedeltà per una Generalizzazione Robusta dei Robot
Fidelity-Aware Data Composition for Robust Robot Generalization
September 29, 2025
Autori: Zizhao Tong, Di Chen, Sicheng Hu, Hongwei Fan, Liliang Chen, Guanghui Ren, Hao Tang, Hao Dong, Ling Shao
cs.AI
Abstract
Le politiche generaliste per robot addestrate su dataset su larga scala e visivamente omogenei possono essere suscettibili all'apprendimento di scorciatoie, il che compromette la loro generalizzazione fuori distribuzione (OOD). Sebbene l'aumento generativo dei dati sia un approccio comune per introdurre diversità, presenta una sfida sottile: la composizione dei dati. Mescolare in modo ingenuo dati reali e sintetici può corrompere il segnale di apprendimento, poiché questo processo spesso privilegia la diversità visiva a scapito della fedeltà delle informazioni. Questo articolo suggerisce che una generalizzazione robusta dipende da una composizione dei dati consapevole e basata su principi di fedeltà. Introduciamo il Coherent Information Fidelity Tuning (CIFT), un framework che tratta la composizione dei dati come un problema di ottimizzazione. CIFT utilizza un proxy pratico per la Fedeltà delle Informazioni basato sulla geometria dello spazio delle caratteristiche di un dataset. Ciò consente l'identificazione di una transizione di fase, denominata Punto di Decoerenza, in cui la stabilità dell'addestramento si degrada. Il framework include un motore generativo, Multi-View Video Augmentation (MVAug), per sintetizzare uno spettro di dati causalmente disaccoppiato per questo processo di tuning. Applicando CIFT ad architetture di politiche come pi_0 e Diffusion Policy si migliorano i tassi di successo OOD di oltre il 54%. Questi risultati indicano che la composizione consapevole della fedeltà, oltre alla sola sintesi dei dati, è un componente importante per lo sviluppo di robot robusti e di uso generale.
English
Generalist robot policies trained on large-scale, visually homogeneous
datasets can be susceptible to shortcut learning, which impairs their
out-of-distribution (OOD) generalization. While generative data augmentation is
a common approach to introduce diversity, it presents a subtle challenge: data
composition. Naively mixing real and synthetic data can corrupt the learning
signal, as this process often prioritizes visual diversity at the expense of
information fidelity. This paper suggests that robust generalization depends on
principled, fidelity-aware data composition. We introduce Coherent Information
Fidelity Tuning (CIFT), a framework that treats data composition as an
optimization problem. CIFT uses a practical proxy for Information Fidelity
based on the feature-space geometry of a dataset. This enables the
identification of a phase transition, termed the Decoherence Point, where
training stability degrades. The framework includes a generative engine,
Multi-View Video Augmentation (MVAug), to synthesize a causally disentangled
data spectrum for this tuning process. Applying CIFT to policy architectures
such as pi_0 and Diffusion Policy improves OOD success rates by over 54\%.
These results indicate that fidelity-aware composition, beyond data synthesis
alone, is an important component for developing robust, general-purpose robots.