ChatPaper.aiChatPaper

H2R-Grounder: 인간 상호작용 비디오를 물리적으로 구현된 로봇 비디오로 변환하기 위한 데이터 쌍 불필요 패러다임

H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

December 10, 2025
저자: Hai Ci, Xiaokang Liu, Pei Yang, Yiren Song, Mike Zheng Shou
cs.AI

초록

일상적인 인간 동영상으로부터 조작 기술을 배우는 로봇은 지루한 로봇 데이터 수집 없이도 광범위한 능력을 습득할 수 있을 것입니다. 우리는 일반적인 인간-객체 상호작용 동영상을 움직임이 일관되고 현실적이며 물리적으로 타당한 상호작용을 담은 로봇 조작 동영상으로 변환하는 비디오-투-비디오 변환 프레임워크를 제안합니다. 우리의 접근 방식은 훈련을 위해 짝을 이룬 인간-로봇 동영상이 필요하지 않으며, 짝을 이루지 않은 로봇 동영상 세트만으로도 시스템 확장이 용이합니다. 우리는 구현체 간 격차를 해소하는 전이 가능한 표현을 도입합니다: 훈련 비디오에서 로봇 팔을 인페인팅하여 깔끔한 배경을 얻고, 간단한 시각적 단서(그리퍼의 위치와 방향을 나타내는 마커와 화살표)를 중첩함으로써, 생성 모델이 장면에 로봇 팔을 다시 삽입하도록 조건을 부여할 수 있습니다. 테스트 시에는 인간 동영상에 동일한 과정(사람 인페인팅 및 인간 자세 단서 중첩)을 적용하여 인간의 행동을 모방한 고품질 로봇 비디오를 생성합니다. 우리는 SOTA 비디오 확산 모델(Wan 2.2)을 인-컨텍스트 러닝 방식으로 미세 조정하여 시간적 일관성을 보장하고 그 풍부한 사전 지식을 활용합니다. 실험 결과는 우리의 접근 방식이 기준 방법들에 비해 현저히 더 현실적이고 타당한 로봇 동작을 달성함을 보여주며, 레이블이 없는 인간 동영상으로부터 로봇 학습을 확장하는 유망한 방향을 제시합니다. 프로젝트 페이지: https://showlab.github.io/H2R-Grounder/
English
Robots that learn manipulation skills from everyday human videos could acquire broad capabilities without tedious robot data collection. We propose a video-to-video translation framework that converts ordinary human-object interaction videos into motion-consistent robot manipulation videos with realistic, physically grounded interactions. Our approach does not require any paired human-robot videos for training only a set of unpaired robot videos, making the system easy to scale. We introduce a transferable representation that bridges the embodiment gap: by inpainting the robot arm in training videos to obtain a clean background and overlaying a simple visual cue (a marker and arrow indicating the gripper's position and orientation), we can condition a generative model to insert the robot arm back into the scene. At test time, we apply the same process to human videos (inpainting the person and overlaying human pose cues) and generate high-quality robot videos that mimic the human's actions. We fine-tune a SOTA video diffusion model (Wan 2.2) in an in-context learning manner to ensure temporal coherence and leveraging of its rich prior knowledge. Empirical results demonstrate that our approach achieves significantly more realistic and grounded robot motions compared to baselines, pointing to a promising direction for scaling up robot learning from unlabeled human videos. Project page: https://showlab.github.io/H2R-Grounder/
PDF31December 13, 2025