ChatPaper.aiChatPaper

H2R-Grounder: Un paradigma senza dati accoppiati per tradurre video di interazione umana in video di robot fisicamente ancorati alla realtà

H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

December 10, 2025
Autori: Hai Ci, Xiaokang Liu, Pei Yang, Yiren Song, Mike Zheng Shou
cs.AI

Abstract

I robot che apprendono abilità di manipolazione da video umani quotidiani potrebbero acquisire ampie capacità senza la noiosa raccolta di dati robotici. Proponiamo un framework di traduzione da video a video che converte comuni video di interazione uomo-oggetto in video di manipolazione robotica con movimenti coerenti e interazioni realistiche e fisicamente plausibili. Il nostro approccio non richiede video accoppiati uomo-robot per l'addestramento, ma solo un insieme di video robotici non accoppiati, rendendo il sistema facilmente scalabile. Introduciamo una rappresentazione trasferibile che colma il divario di embodiment: inpaintando il braccio robotico nei video di addestramento per ottenere uno sfondo pulito e sovrapponendo un semplice segnale visivo (un marcatore e una freccia che indicano la posizione e l'orientamento del gripper), possiamo condizionare un modello generativo per reinserire il braccio robotico nella scena. Al momento del test, applichiamo lo stesso processo ai video umani (inpaintando la persona e sovrapponendo segnali di posa umana) e generiamo video robotici di alta qualità che imitano le azioni umane. Addestriamo in modalità in-context learning un modello di diffusione video allo stato dell'arte (Wan 2.2) per garantire coerenza temporale e sfruttare la sua ricca conoscenza pregressa. I risultati empirici dimostrano che il nostro approccio produce movimenti robotici significativamente più realistici e plausibili rispetto ai baseline, indicando una direzione promettente per lo scale-up dell'apprendimento robotico da video umani non etichettati. Pagina del progetto: https://showlab.github.io/H2R-Grounder/
English
Robots that learn manipulation skills from everyday human videos could acquire broad capabilities without tedious robot data collection. We propose a video-to-video translation framework that converts ordinary human-object interaction videos into motion-consistent robot manipulation videos with realistic, physically grounded interactions. Our approach does not require any paired human-robot videos for training only a set of unpaired robot videos, making the system easy to scale. We introduce a transferable representation that bridges the embodiment gap: by inpainting the robot arm in training videos to obtain a clean background and overlaying a simple visual cue (a marker and arrow indicating the gripper's position and orientation), we can condition a generative model to insert the robot arm back into the scene. At test time, we apply the same process to human videos (inpainting the person and overlaying human pose cues) and generate high-quality robot videos that mimic the human's actions. We fine-tune a SOTA video diffusion model (Wan 2.2) in an in-context learning manner to ensure temporal coherence and leveraging of its rich prior knowledge. Empirical results demonstrate that our approach achieves significantly more realistic and grounded robot motions compared to baselines, pointing to a promising direction for scaling up robot learning from unlabeled human videos. Project page: https://showlab.github.io/H2R-Grounder/
PDF31December 13, 2025