ChatPaper.aiChatPaper

강건한 로봇 일반화를 위한 충실도 인식 데이터 구성

Fidelity-Aware Data Composition for Robust Robot Generalization

September 29, 2025
저자: Zizhao Tong, Di Chen, Sicheng Hu, Hongwei Fan, Liliang Chen, Guanghui Ren, Hao Tang, Hao Dong, Ling Shao
cs.AI

초록

대규모의 시각적으로 동질적인 데이터셋으로 훈련된 범용 로봇 정책은 단축 학습(shortcut learning)에 취약할 수 있으며, 이는 분포 외(out-of-distribution, OOD) 일반화를 저해합니다. 생성적 데이터 증강은 다양성을 도입하는 일반적인 접근 방식이지만, 이는 미묘한 과제를 제기합니다: 데이터 구성(data composition) 문제입니다. 실제 데이터와 합성 데이터를 단순히 혼합하는 것은 시각적 다양성을 우선시함으로써 정보 충실도(information fidelity)를 희생시킬 수 있으며, 이는 학습 신호를 손상시킬 수 있습니다. 본 논문은 강력한 일반화가 원칙적이고 충실도 인식 데이터 구성에 달려 있다고 제안합니다. 우리는 데이터 구성을 최적화 문제로 다루는 Coherent Information Fidelity Tuning(CIFT) 프레임워크를 소개합니다. CIFT는 데이터셋의 특징 공간 기하학(feature-space geometry)을 기반으로 정보 충실도의 실용적인 대리 지표를 사용합니다. 이를 통해 훈련 안정성이 저하되는 Decoherence Point(비간섭 점)라는 상전이(phase transition)를 식별할 수 있습니다. 이 프레임워크는 이 조정 과정을 위해 인과적으로 분리된(causally disentangled) 데이터 스펙트럼을 합성하기 위한 생성 엔진인 Multi-View Video Augmentation(MVAug)을 포함합니다. CIFT를 pi_0 및 Diffusion Policy와 같은 정책 아키텍처에 적용한 결과, OOD 성공률이 54% 이상 향상되었습니다. 이러한 결과는 데이터 합성 그 이상의 충실도 인식 구성이 강력한 범용 로봇 개발을 위한 중요한 요소임을 시사합니다.
English
Generalist robot policies trained on large-scale, visually homogeneous datasets can be susceptible to shortcut learning, which impairs their out-of-distribution (OOD) generalization. While generative data augmentation is a common approach to introduce diversity, it presents a subtle challenge: data composition. Naively mixing real and synthetic data can corrupt the learning signal, as this process often prioritizes visual diversity at the expense of information fidelity. This paper suggests that robust generalization depends on principled, fidelity-aware data composition. We introduce Coherent Information Fidelity Tuning (CIFT), a framework that treats data composition as an optimization problem. CIFT uses a practical proxy for Information Fidelity based on the feature-space geometry of a dataset. This enables the identification of a phase transition, termed the Decoherence Point, where training stability degrades. The framework includes a generative engine, Multi-View Video Augmentation (MVAug), to synthesize a causally disentangled data spectrum for this tuning process. Applying CIFT to policy architectures such as pi_0 and Diffusion Policy improves OOD success rates by over 54\%. These results indicate that fidelity-aware composition, beyond data synthesis alone, is an important component for developing robust, general-purpose robots.
PDF12October 10, 2025