DeVI: Interação Destra Humano-Objeto Baseada em Física via Imitação de Vídeo Sintético
DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation
April 22, 2026
Autores: Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, Hanbyul Joo
cs.AI
Resumo
Os recentes avanços em modelos generativos de vídeo permitem a síntese de vídeos realistas de interação humano-objeto em uma ampla gama de cenários e categorias de objetos, incluindo manipulações destras complexas que são difíceis de capturar com sistemas de captura de movimento. Embora o rico conhecimento de interação incorporado nesses vídeos sintéticos tenha um forte potencial para o planejamento de movimento na manipulação robótica destra, sua fidelidade física limitada e natureza puramente 2D tornam-nos difíceis de usar diretamente como alvos de imitação no controle de personagens baseado em física. Apresentamos o DeVI (Dexterous Video Imitation), uma nova estrutura que aproveita vídeos sintéticos condicionados por texto para permitir o controle fisicamente plausível de agentes destros para interagir com objetos-alvo não vistos. Para superar a imprecisão das pistas generativas 2D, introduzimos uma recompensa de rastreamento híbrida que integra o rastreamento humano 3D com um rastreamento robusto de objetos 2D. Diferente de métodos que dependem de demonstrações cinemáticas 3D de alta qualidade, o DeVI requer apenas o vídeo gerado, permitindo generalização *zero-shot* entre diversos objetos e tipos de interação. Experimentos extensivos demonstram que o DeVI supera as abordagens existentes que imitam demonstrações de interação humano-objeto 3D, particularmente na modelagem de interações destras mão-objeto. Validamos ainda a eficácia do DeVI em cenas multi-objeto e na diversidade de ações orientadas por texto, destacando a vantagem de usar o vídeo como um planejador de movimento consciente da interação humano-objeto.
English
Recent advances in video generative models enable the synthesis of realistic human-object interaction videos across a wide range of scenarios and object categories, including complex dexterous manipulations that are difficult to capture with motion capture systems. While the rich interaction knowledge embedded in these synthetic videos holds strong potential for motion planning in dexterous robotic manipulation, their limited physical fidelity and purely 2D nature make them difficult to use directly as imitation targets in physics-based character control. We present DeVI (Dexterous Video Imitation), a novel framework that leverages text-conditioned synthetic videos to enable physically plausible dexterous agent control for interacting with unseen target objects. To overcome the imprecision of generative 2D cues, we introduce a hybrid tracking reward that integrates 3D human tracking with robust 2D object tracking. Unlike methods relying on high-quality 3D kinematic demonstrations, DeVI requires only the generated video, enabling zero-shot generalization across diverse objects and interaction types. Extensive experiments demonstrate that DeVI outperforms existing approaches that imitate 3D human-object interaction demonstrations, particularly in modeling dexterous hand-object interactions. We further validate the effectiveness of DeVI in multi-object scenes and text-driven action diversity, showcasing the advantage of using video as an HOI-aware motion planner.