ChatPaper.aiChatPaper

H2R-Grounder: Un paradigma sin datos emparejados para traducir videos de interacción humana a videos de robots físicamente anclados

H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

December 10, 2025
Autores: Hai Ci, Xiaokang Liu, Pei Yang, Yiren Song, Mike Zheng Shou
cs.AI

Resumen

Los robots que aprenden habilidades de manipulación a partir de videos humanos cotidianos podrían adquirir capacidades amplias sin la tediosa recopilación de datos robóticos. Proponemos un marco de traducción de video a video que convierte videos ordinarios de interacción humano-objeto en videos de manipulación robótica con coherencia motriz e interacciones realistas y físicamente fundamentadas. Nuestro enfoque no requiere videos emparejados humano-robot para el entrenamiento, solo un conjunto de videos robóticos no emparejados, lo que facilita la escalabilidad del sistema. Introducimos una representación transferible que salva la brecha de encarnación: al restaurar digitalmente el brazo robótico en los videos de entrenamiento para obtener un fondo limpio y superponer una señal visual simple (un marcador y una flecha que indica la posición y orientación de la pinza), podemos condicionar un modelo generativo para reinsertar el brazo robótico en la escena. Durante la prueba, aplicamos el mismo proceso a videos humanos (restaurando digitalmente a la persona y superponiendo señales de postura humana) y generamos videos robóticos de alta calidad que imitan las acciones humanas. Ajustamos un modelo de difusión de video de última generación (Wan 2.2) mediante aprendizaje en contexto para garantizar coherencia temporal y aprovechar su rico conocimiento previo. Los resultados empíricos demuestran que nuestro enfoque logra movimientos robóticos significativamente más realistas y fundamentados en comparación con los métodos base, señalando una dirección prometedora para escalar el aprendizaje robótico a partir de videos humanos no etiquetados. Página del proyecto: https://showlab.github.io/H2R-Grounder/
English
Robots that learn manipulation skills from everyday human videos could acquire broad capabilities without tedious robot data collection. We propose a video-to-video translation framework that converts ordinary human-object interaction videos into motion-consistent robot manipulation videos with realistic, physically grounded interactions. Our approach does not require any paired human-robot videos for training only a set of unpaired robot videos, making the system easy to scale. We introduce a transferable representation that bridges the embodiment gap: by inpainting the robot arm in training videos to obtain a clean background and overlaying a simple visual cue (a marker and arrow indicating the gripper's position and orientation), we can condition a generative model to insert the robot arm back into the scene. At test time, we apply the same process to human videos (inpainting the person and overlaying human pose cues) and generate high-quality robot videos that mimic the human's actions. We fine-tune a SOTA video diffusion model (Wan 2.2) in an in-context learning manner to ensure temporal coherence and leveraging of its rich prior knowledge. Empirical results demonstrate that our approach achieves significantly more realistic and grounded robot motions compared to baselines, pointing to a promising direction for scaling up robot learning from unlabeled human videos. Project page: https://showlab.github.io/H2R-Grounder/
PDF31December 13, 2025