로보VIP: 시각적 정체성 프롬프팅을 통한 다중 뷰 비디오 생성이 로봇 조작 성능을 향상
RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation
January 8, 2026
저자: Boyang Wang, Haoran Zhang, Shujie Zhang, Jinkun Hao, Mingda Jia, Qi Lv, Yucheng Mao, Zhaoyang Lyu, Jia Zeng, Xudong Xu, Jiangmiao Pang
cs.AI
초록
로봇 정책의 효과적인 학습을 위해서는 조작 데이터의 다양성, 양, 질이 매우 중요합니다. 그러나 하드웨어 및 물리적 환경 설정의 제약으로 인해 다양한 환경에서 대규모 실제 조작 데이터를 수집하는 것은 여전히 확장하기 어렵습니다. 최근 연구에서는 텍스트 프롬프트 기반 이미지 확산 모델을 사용하여 시각 관측 데이터의 배경 및 탁상 위 객체를 변환함으로써 조작 데이터를 증강하는 방법을 제안합니다. 그러나 이러한 접근법들은 최신 정책 모델이 요구하는 다중 시점 및 시간적 일관성 있는 관측 데이터에 대한 실용적 필요성을 종종 간과합니다. 더욱이 텍스트 프롬프트만으로는 장면 구성을 안정적으로 명시하기 어렵습니다. 확산 모델에 명시적인 시각적 지침을 제공하기 위해, 우리는 원하는 장면 구성을 안내하기 위한 조건 입력으로 예시 이미지를 제공하는 시각 정체성 프롬프팅을 제안합니다. 이를 위해 대규모 로봇 데이터셋에서 시각 정체성 풀을 구축하는 확장 가능한 파이프라인도 구축했습니다. 우리가 증강한 조작 데이터를 사용하여 하류 작업인 시각-언어-행동 및 시각운동 정책 모델을 학습한 결과, 시뮬레이션과 실제 로봇 환경 모두에서 일관된 성능 향상을 확인했습니다.
English
The diversity, quantity, and quality of manipulation data are critical for training effective robot policies. However, due to hardware and physical setup constraints, collecting large-scale real-world manipulation data remains difficult to scale across diverse environments. Recent work uses text-prompt conditioned image diffusion models to augment manipulation data by altering the backgrounds and tabletop objects in the visual observations. However, these approaches often overlook the practical need for multi-view and temporally coherent observations required by state-of-the-art policy models. Further, text prompts alone cannot reliably specify the scene setup. To provide the diffusion model with explicit visual guidance, we introduce visual identity prompting, which supplies exemplar images as conditioning inputs to guide the generation of the desired scene setup. To this end, we also build a scalable pipeline to curate a visual identity pool from large robotics datasets. Using our augmented manipulation data to train downstream vision-language-action and visuomotor policy models yields consistent performance gains in both simulation and real-robot settings.