DeVI: Interazione fisica abile uomo-oggetto tramite imitazione di video sintetici

Abstract

I recenti progressi nei modelli generativi video consentono la sintesi di video realistici di interazione uomo-oggetto in un'ampia gamma di scenari e categorie di oggetti, incluse manipolazioni manuali complesse difficili da catturare con sistemi di motion capture. Sebbene la ricca conoscenza interattiva incorporata in questi video sintetici abbia un forte potenziale per la pianificazione del movimento nella manipolazione robotica abile, la loro limitata fedeltà fisica e la natura puramente 2D li rendono difficili da utilizzare direttamente come target di imitazione nel controllo fisico di personaggi. Presentiamo DeVI (Dexterous Video Imitation), un framework innovativo che sfrutta video sintetici condizionati da testo per abilitare un controllo fisicamente plausibile di agenti abili durante l'interazione con oggetti target non visti. Per superare l'imprecisione dei segnali generativi 2D, introduciamo una ricompensa di tracking ibrida che integra il tracking umano 3D con un robusto tracking dell'oggetto 2D. A differenza di metodi che si basano su dimostrazioni cinematiche 3D di alta qualità, DeVI richiede solo il video generato, consentendo una generalizzazione zero-shot su oggetti e tipi di interazione diversi. Esperimenti estensivi dimostrano che DeVI supera gli approcci esistenti che imitano dimostrazioni 3D di interazione uomo-oggetto, in particolare nella modellazione di interazioni manuali abili con oggetti. Validiamo ulteriormente l'efficacia di DeVI in scene multi-oggetto e nella diversità di azioni guidate da testo, evidenziando il vantaggio dell'uso del video come pianificatore di movimento consapevole dell'interazione uomo-oggetto.

English

Recent advances in video generative models enable the synthesis of realistic human-object interaction videos across a wide range of scenarios and object categories, including complex dexterous manipulations that are difficult to capture with motion capture systems. While the rich interaction knowledge embedded in these synthetic videos holds strong potential for motion planning in dexterous robotic manipulation, their limited physical fidelity and purely 2D nature make them difficult to use directly as imitation targets in physics-based character control. We present DeVI (Dexterous Video Imitation), a novel framework that leverages text-conditioned synthetic videos to enable physically plausible dexterous agent control for interacting with unseen target objects. To overcome the imprecision of generative 2D cues, we introduce a hybrid tracking reward that integrates 3D human tracking with robust 2D object tracking. Unlike methods relying on high-quality 3D kinematic demonstrations, DeVI requires only the generated video, enabling zero-shot generalization across diverse objects and interaction types. Extensive experiments demonstrate that DeVI outperforms existing approaches that imitate 3D human-object interaction demonstrations, particularly in modeling dexterous hand-object interactions. We further validate the effectiveness of DeVI in multi-object scenes and text-driven action diversity, showcasing the advantage of using video as an HOI-aware motion planner.

DeVI: Interazione fisica abile uomo-oggetto tramite imitazione di video sintetici

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Abstract

Support