Composizione Dati Consapevole della Fedeltà per una Generalizzazione Robusta dei Robot

Abstract

Le politiche generaliste per robot addestrate su dataset su larga scala e visivamente omogenei possono essere suscettibili all'apprendimento di scorciatoie, il che compromette la loro generalizzazione fuori distribuzione (OOD). Sebbene l'aumento generativo dei dati sia un approccio comune per introdurre diversità, presenta una sfida sottile: la composizione dei dati. Mescolare in modo ingenuo dati reali e sintetici può corrompere il segnale di apprendimento, poiché questo processo spesso privilegia la diversità visiva a scapito della fedeltà delle informazioni. Questo articolo suggerisce che una generalizzazione robusta dipende da una composizione dei dati consapevole e basata su principi di fedeltà. Introduciamo il Coherent Information Fidelity Tuning (CIFT), un framework che tratta la composizione dei dati come un problema di ottimizzazione. CIFT utilizza un proxy pratico per la Fedeltà delle Informazioni basato sulla geometria dello spazio delle caratteristiche di un dataset. Ciò consente l'identificazione di una transizione di fase, denominata Punto di Decoerenza, in cui la stabilità dell'addestramento si degrada. Il framework include un motore generativo, Multi-View Video Augmentation (MVAug), per sintetizzare uno spettro di dati causalmente disaccoppiato per questo processo di tuning. Applicando CIFT ad architetture di politiche come pi_0 e Diffusion Policy si migliorano i tassi di successo OOD di oltre il 54%. Questi risultati indicano che la composizione consapevole della fedeltà, oltre alla sola sintesi dei dati, è un componente importante per lo sviluppo di robot robusti e di uso generale.

English

Generalist robot policies trained on large-scale, visually homogeneous datasets can be susceptible to shortcut learning, which impairs their out-of-distribution (OOD) generalization. While generative data augmentation is a common approach to introduce diversity, it presents a subtle challenge: data composition. Naively mixing real and synthetic data can corrupt the learning signal, as this process often prioritizes visual diversity at the expense of information fidelity. This paper suggests that robust generalization depends on principled, fidelity-aware data composition. We introduce Coherent Information Fidelity Tuning (CIFT), a framework that treats data composition as an optimization problem. CIFT uses a practical proxy for Information Fidelity based on the feature-space geometry of a dataset. This enables the identification of a phase transition, termed the Decoherence Point, where training stability degrades. The framework includes a generative engine, Multi-View Video Augmentation (MVAug), to synthesize a causally disentangled data spectrum for this tuning process. Applying CIFT to policy architectures such as pi_0 and Diffusion Policy improves OOD success rates by over 54\%. These results indicate that fidelity-aware composition, beyond data synthesis alone, is an important component for developing robust, general-purpose robots.

Composizione Dati Consapevole della Fedeltà per una Generalizzazione Robusta dei Robot

Fidelity-Aware Data Composition for Robust Robot Generalization

Abstract

Support