Treuebewusste Datenkomposition für robuste Robotergeneralisierung

papers.abstract

Allgemeine Roboterrichtlinien, die auf groß angelegten, visuell homogenen Datensätzen trainiert werden, können anfällig für Shortcut-Lernen sein, was ihre Generalisierung außerhalb der Verteilung (Out-of-Distribution, OOD) beeinträchtigt. Während generative Datenaugmentierung ein gängiger Ansatz ist, um Diversität einzuführen, birgt sie eine subtile Herausforderung: die Datenkomposition. Das naive Mischen von realen und synthetischen Daten kann das Lernsignal beeinträchtigen, da dieser Prozess oft die visuelle Vielfalt auf Kosten der Informationsfidelität priorisiert. Dieses Papier schlägt vor, dass eine robuste Generalisierung von einer prinzipienbasierten, fidelitätsbewussten Datenkomposition abhängt. Wir stellen Coherent Information Fidelity Tuning (CIFT) vor, ein Framework, das die Datenkomposition als Optimierungsproblem behandelt. CIFT verwendet einen praktischen Proxy für die Informationsfidelität, basierend auf der Feature-Raum-Geometrie eines Datensatzes. Dies ermöglicht die Identifizierung eines Phasenübergangs, genannt der Dekohärenzpunkt, an dem die Trainingsstabilität abnimmt. Das Framework beinhaltet eine generative Engine, Multi-View Video Augmentation (MVAug), um ein kausal entwirrtes Datenspektrum für diesen Abstimmungsprozess zu synthetisieren. Die Anwendung von CIFT auf Richtlinienarchitekturen wie pi_0 und Diffusion Policy verbessert die OOD-Erfolgsraten um über 54\%. Diese Ergebnisse deuten darauf hin, dass fidelitätsbewusste Komposition, über die reine Datensynthese hinaus, eine wichtige Komponente für die Entwicklung robuster, allgemeiner Roboter ist.

English

Generalist robot policies trained on large-scale, visually homogeneous datasets can be susceptible to shortcut learning, which impairs their out-of-distribution (OOD) generalization. While generative data augmentation is a common approach to introduce diversity, it presents a subtle challenge: data composition. Naively mixing real and synthetic data can corrupt the learning signal, as this process often prioritizes visual diversity at the expense of information fidelity. This paper suggests that robust generalization depends on principled, fidelity-aware data composition. We introduce Coherent Information Fidelity Tuning (CIFT), a framework that treats data composition as an optimization problem. CIFT uses a practical proxy for Information Fidelity based on the feature-space geometry of a dataset. This enables the identification of a phase transition, termed the Decoherence Point, where training stability degrades. The framework includes a generative engine, Multi-View Video Augmentation (MVAug), to synthesize a causally disentangled data spectrum for this tuning process. Applying CIFT to policy architectures such as pi_0 and Diffusion Policy improves OOD success rates by over 54\%. These results indicate that fidelity-aware composition, beyond data synthesis alone, is an important component for developing robust, general-purpose robots.

Treuebewusste Datenkomposition für robuste Robotergeneralisierung

Fidelity-Aware Data Composition for Robust Robot Generalization

papers.abstract

Support