ChatPaper.aiChatPaper

H2R-Grounder : Un paradigme sans données appariées pour traduire des vidéos d'interaction humaine en vidéos de robots physiquement ancrées

H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

December 10, 2025
papers.authors: Hai Ci, Xiaokang Liu, Pei Yang, Yiren Song, Mike Zheng Shou
cs.AI

papers.abstract

Les robots qui apprennent des compétences de manipulation à partir de vidéos humaines quotidiennes pourraient acquérir des capacités étendues sans le processus fastidieux de collecte de données robotiques. Nous proposons un cadre de traduction vidéo-à-vidéo qui convertit des vidéos ordinaires d'interaction humain-objet en vidéos de manipulation robotique cohérentes sur le plan du mouvement, avec des interactions réalistes et physiquement plausibles. Notre approche ne nécessite aucune vidéo appariée humain-robot pour l'entraînement, seulement un ensemble de vidéos robotiques non appariées, ce qui rend le système facile à mettre à l'échelle. Nous introduisons une représentation transférable qui comble le fossé de l'incarnation : en effectuant un inpainting du bras robotique dans les vidéos d'entraînement pour obtenir un arrière-plan neutre et en superposant un signal visuel simple (un marqueur et une flèche indiquant la position et l'orientation de la pince), nous pouvons conditionner un modèle génératif pour réinsérer le bras robotique dans la scène. Lors des tests, nous appliquons le même processus aux vidéos humaines (inpainting de la personne et superposition de repères de posture humaine) et générons des vidéos robotiques de haute qualité qui imitent les actions de l'humain. Nous affinons un modèle de diffusion vidéo de pointe (Wan 2.2) de manière contextuelle pour garantir la cohérence temporelle et tirer parti de ses riches connaissances a priori. Les résultats empiriques démontrent que notre approche produit des mouvements robotiques significativement plus réalistes et plausibles que les méthodes de référence, indiquant une voie prometteuse pour intensifier l'apprentissage robotique à partir de vidéos humaines non annotées. Page du projet : https://showlab.github.io/H2R-Grounder/
English
Robots that learn manipulation skills from everyday human videos could acquire broad capabilities without tedious robot data collection. We propose a video-to-video translation framework that converts ordinary human-object interaction videos into motion-consistent robot manipulation videos with realistic, physically grounded interactions. Our approach does not require any paired human-robot videos for training only a set of unpaired robot videos, making the system easy to scale. We introduce a transferable representation that bridges the embodiment gap: by inpainting the robot arm in training videos to obtain a clean background and overlaying a simple visual cue (a marker and arrow indicating the gripper's position and orientation), we can condition a generative model to insert the robot arm back into the scene. At test time, we apply the same process to human videos (inpainting the person and overlaying human pose cues) and generate high-quality robot videos that mimic the human's actions. We fine-tune a SOTA video diffusion model (Wan 2.2) in an in-context learning manner to ensure temporal coherence and leveraging of its rich prior knowledge. Empirical results demonstrate that our approach achieves significantly more realistic and grounded robot motions compared to baselines, pointing to a promising direction for scaling up robot learning from unlabeled human videos. Project page: https://showlab.github.io/H2R-Grounder/
PDF31December 13, 2025