Treuebewusste Datenkomposition für robuste Robotergeneralisierung
Fidelity-Aware Data Composition for Robust Robot Generalization
September 29, 2025
papers.authors: Zizhao Tong, Di Chen, Sicheng Hu, Hongwei Fan, Liliang Chen, Guanghui Ren, Hao Tang, Hao Dong, Ling Shao
cs.AI
papers.abstract
Allgemeine Roboterrichtlinien, die auf groß angelegten, visuell homogenen Datensätzen trainiert werden, können anfällig für Shortcut-Lernen sein, was ihre Generalisierung außerhalb der Verteilung (Out-of-Distribution, OOD) beeinträchtigt. Während generative Datenaugmentierung ein gängiger Ansatz ist, um Diversität einzuführen, birgt sie eine subtile Herausforderung: die Datenkomposition. Das naive Mischen von realen und synthetischen Daten kann das Lernsignal beeinträchtigen, da dieser Prozess oft die visuelle Vielfalt auf Kosten der Informationsfidelität priorisiert. Dieses Papier schlägt vor, dass eine robuste Generalisierung von einer prinzipienbasierten, fidelitätsbewussten Datenkomposition abhängt. Wir stellen Coherent Information Fidelity Tuning (CIFT) vor, ein Framework, das die Datenkomposition als Optimierungsproblem behandelt. CIFT verwendet einen praktischen Proxy für die Informationsfidelität, basierend auf der Feature-Raum-Geometrie eines Datensatzes. Dies ermöglicht die Identifizierung eines Phasenübergangs, genannt der Dekohärenzpunkt, an dem die Trainingsstabilität abnimmt. Das Framework beinhaltet eine generative Engine, Multi-View Video Augmentation (MVAug), um ein kausal entwirrtes Datenspektrum für diesen Abstimmungsprozess zu synthetisieren. Die Anwendung von CIFT auf Richtlinienarchitekturen wie pi_0 und Diffusion Policy verbessert die OOD-Erfolgsraten um über 54\%. Diese Ergebnisse deuten darauf hin, dass fidelitätsbewusste Komposition, über die reine Datensynthese hinaus, eine wichtige Komponente für die Entwicklung robuster, allgemeiner Roboter ist.
English
Generalist robot policies trained on large-scale, visually homogeneous
datasets can be susceptible to shortcut learning, which impairs their
out-of-distribution (OOD) generalization. While generative data augmentation is
a common approach to introduce diversity, it presents a subtle challenge: data
composition. Naively mixing real and synthetic data can corrupt the learning
signal, as this process often prioritizes visual diversity at the expense of
information fidelity. This paper suggests that robust generalization depends on
principled, fidelity-aware data composition. We introduce Coherent Information
Fidelity Tuning (CIFT), a framework that treats data composition as an
optimization problem. CIFT uses a practical proxy for Information Fidelity
based on the feature-space geometry of a dataset. This enables the
identification of a phase transition, termed the Decoherence Point, where
training stability degrades. The framework includes a generative engine,
Multi-View Video Augmentation (MVAug), to synthesize a causally disentangled
data spectrum for this tuning process. Applying CIFT to policy architectures
such as pi_0 and Diffusion Policy improves OOD success rates by over 54\%.
These results indicate that fidelity-aware composition, beyond data synthesis
alone, is an important component for developing robust, general-purpose robots.