Составление данных с учетом точности для обеспечения устойчивой обобщаемости роботов

Аннотация

Универсальные политики роботов, обученные на крупномасштабных, визуально однородных наборах данных, могут быть подвержены обучению на основе упрощённых закономерностей, что ухудшает их обобщающую способность за пределами распределения (out-of-distribution, OOD). Хотя генеративное расширение данных является распространённым подходом для повышения разнообразия, оно представляет собой тонкую проблему: композиция данных. Наивное смешение реальных и синтетических данных может исказить обучающий сигнал, так как этот процесс часто отдаёт приоритет визуальному разнообразию в ущерб информационной достоверности. В данной статье утверждается, что устойчивое обобщение зависит от принципиальной, учитывающей достоверность композиции данных. Мы представляем Coherent Information Fidelity Tuning (CIFT) — фреймворк, который рассматривает композицию данных как задачу оптимизации. CIFT использует практический прокси для информационной достоверности, основанный на геометрии пространства признаков набора данных. Это позволяет выявить фазовый переход, называемый точкой декогеренции, где стабильность обучения ухудшается. Фреймворк включает генеративный механизм Multi-View Video Augmentation (MVAug) для синтеза причинно-разделимого спектра данных в процессе настройки. Применение CIFT к архитектурам политик, таким как pi_0 и Diffusion Policy, повышает успешность OOD более чем на 54\%. Эти результаты показывают, что композиция данных с учётом достоверности, выходящая за рамки простого синтеза данных, является важным компонентом для разработки устойчивых универсальных роботов.

English

Generalist robot policies trained on large-scale, visually homogeneous datasets can be susceptible to shortcut learning, which impairs their out-of-distribution (OOD) generalization. While generative data augmentation is a common approach to introduce diversity, it presents a subtle challenge: data composition. Naively mixing real and synthetic data can corrupt the learning signal, as this process often prioritizes visual diversity at the expense of information fidelity. This paper suggests that robust generalization depends on principled, fidelity-aware data composition. We introduce Coherent Information Fidelity Tuning (CIFT), a framework that treats data composition as an optimization problem. CIFT uses a practical proxy for Information Fidelity based on the feature-space geometry of a dataset. This enables the identification of a phase transition, termed the Decoherence Point, where training stability degrades. The framework includes a generative engine, Multi-View Video Augmentation (MVAug), to synthesize a causally disentangled data spectrum for this tuning process. Applying CIFT to policy architectures such as pi_0 and Diffusion Policy improves OOD success rates by over 54\%. These results indicate that fidelity-aware composition, beyond data synthesis alone, is an important component for developing robust, general-purpose robots.

Составление данных с учетом точности для обеспечения устойчивой обобщаемости роботов

Fidelity-Aware Data Composition for Robust Robot Generalization

Аннотация

Support