Составление данных с учетом точности для обеспечения устойчивой обобщаемости роботов
Fidelity-Aware Data Composition for Robust Robot Generalization
September 29, 2025
Авторы: Zizhao Tong, Di Chen, Sicheng Hu, Hongwei Fan, Liliang Chen, Guanghui Ren, Hao Tang, Hao Dong, Ling Shao
cs.AI
Аннотация
Универсальные политики роботов, обученные на крупномасштабных, визуально однородных наборах данных, могут быть подвержены обучению на основе упрощённых закономерностей, что ухудшает их обобщающую способность за пределами распределения (out-of-distribution, OOD). Хотя генеративное расширение данных является распространённым подходом для повышения разнообразия, оно представляет собой тонкую проблему: композиция данных. Наивное смешение реальных и синтетических данных может исказить обучающий сигнал, так как этот процесс часто отдаёт приоритет визуальному разнообразию в ущерб информационной достоверности. В данной статье утверждается, что устойчивое обобщение зависит от принципиальной, учитывающей достоверность композиции данных. Мы представляем Coherent Information Fidelity Tuning (CIFT) — фреймворк, который рассматривает композицию данных как задачу оптимизации. CIFT использует практический прокси для информационной достоверности, основанный на геометрии пространства признаков набора данных. Это позволяет выявить фазовый переход, называемый точкой декогеренции, где стабильность обучения ухудшается. Фреймворк включает генеративный механизм Multi-View Video Augmentation (MVAug) для синтеза причинно-разделимого спектра данных в процессе настройки. Применение CIFT к архитектурам политик, таким как pi_0 и Diffusion Policy, повышает успешность OOD более чем на 54\%. Эти результаты показывают, что композиция данных с учётом достоверности, выходящая за рамки простого синтеза данных, является важным компонентом для разработки устойчивых универсальных роботов.
English
Generalist robot policies trained on large-scale, visually homogeneous
datasets can be susceptible to shortcut learning, which impairs their
out-of-distribution (OOD) generalization. While generative data augmentation is
a common approach to introduce diversity, it presents a subtle challenge: data
composition. Naively mixing real and synthetic data can corrupt the learning
signal, as this process often prioritizes visual diversity at the expense of
information fidelity. This paper suggests that robust generalization depends on
principled, fidelity-aware data composition. We introduce Coherent Information
Fidelity Tuning (CIFT), a framework that treats data composition as an
optimization problem. CIFT uses a practical proxy for Information Fidelity
based on the feature-space geometry of a dataset. This enables the
identification of a phase transition, termed the Decoherence Point, where
training stability degrades. The framework includes a generative engine,
Multi-View Video Augmentation (MVAug), to synthesize a causally disentangled
data spectrum for this tuning process. Applying CIFT to policy architectures
such as pi_0 and Diffusion Policy improves OOD success rates by over 54\%.
These results indicate that fidelity-aware composition, beyond data synthesis
alone, is an important component for developing robust, general-purpose robots.