H2R-Grounder: 人間のインタラクション動画を物理的に接地されたロボット動画へ変換するためのペアデータ不要パラダイム
H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos
December 10, 2025
著者: Hai Ci, Xiaokang Liu, Pei Yang, Yiren Song, Mike Zheng Shou
cs.AI
要旨
日常的な人間の動画から操作スキルを学習するロボットは、煩雑なロボットデータ収集なしに広範な能力を獲得できる可能性がある。本論文では、一般的な人間-物体相互作用ビデオを、現実的で物理的に接地された相互作用を持つ、動作の一貫したロボット操作ビデオに変換する、ビデオ間翻訳フレームワークを提案する。本手法は学習のためにペアとなった人間-ロボットビデオを一切必要とせず、ペアになっていないロボットビデオのセットのみを必要とするため、システムの拡張が容易である。本稿では、身体性のギャップを埋める転移可能な表現を導入する:学習ビデオにおいてロボットアームを修復(inpainting)して背景をクリーンにし、単純な視覚的合図(把持部の位置と向きを示すマーカーと矢印)を重ね合わせることで、生成モデルがシーンにロボットアームを再挿入する条件付けが可能となる。テスト時には、人間のビデオに対しても同様の処理(人物の修復と人間の姿勢合図の重ね合わせ)を適用し、人間の動作を模倣した高品質なロボットビデオを生成する。時間的一貫性を確保し、その豊富な事前知識を活用するため、SOTAのビデオ拡散モデル(Wan 2.2)を文脈学習(in-context learning)の方法でファインチューニングする。実験結果は、本手法がベースラインと比較して有意により現実的で接地されたロボット動作を実現することを示しており、ラベル付けされていない人間のビデオからのロボット学習のスケールアップに向けた有望な方向性を示唆している。プロジェクトページ: https://showlab.github.io/H2R-Grounder/
English
Robots that learn manipulation skills from everyday human videos could acquire broad capabilities without tedious robot data collection. We propose a video-to-video translation framework that converts ordinary human-object interaction videos into motion-consistent robot manipulation videos with realistic, physically grounded interactions. Our approach does not require any paired human-robot videos for training only a set of unpaired robot videos, making the system easy to scale. We introduce a transferable representation that bridges the embodiment gap: by inpainting the robot arm in training videos to obtain a clean background and overlaying a simple visual cue (a marker and arrow indicating the gripper's position and orientation), we can condition a generative model to insert the robot arm back into the scene. At test time, we apply the same process to human videos (inpainting the person and overlaying human pose cues) and generate high-quality robot videos that mimic the human's actions. We fine-tune a SOTA video diffusion model (Wan 2.2) in an in-context learning manner to ensure temporal coherence and leveraging of its rich prior knowledge. Empirical results demonstrate that our approach achieves significantly more realistic and grounded robot motions compared to baselines, pointing to a promising direction for scaling up robot learning from unlabeled human videos. Project page: https://showlab.github.io/H2R-Grounder/