ChatPaper.aiChatPaper

Generazione Precisa da Azione a Video Tramite Prompt Visivi di Azione

Precise Action-to-Video Generation Through Visual Action Prompts

August 18, 2025
Autori: Yuang Wang, Chao Wen, Haoyu Guo, Sida Peng, Minghan Qin, Hujun Bao, Xiaowei Zhou, Ruizhen Hu
cs.AI

Abstract

Presentiamo i prompt visivi d'azione, una rappresentazione unificata delle azioni per la generazione video da azione di interazioni complesse ad alto grado di libertà (DoF), mantenendo dinamiche visive trasferibili tra domini. La generazione video guidata dall'azione affronta un compromesso tra precisione e generalità: i metodi esistenti che utilizzano testo, azioni primitive o maschere approssimative offrono generalità ma mancano di precisione, mentre i segnali d'azione centrati sull'agente forniscono precisione a scapito della trasferibilità cross-dominio. Per bilanciare la precisione dell'azione e la trasferibilità dinamica, proponiamo di "rendere" le azioni in prompt visivi precisi come rappresentazioni agnostiche rispetto al dominio che preservano sia la precisione geometrica che l'adattabilità cross-dominio per azioni complesse; in particolare, scegliamo scheletri visivi per la loro generalità e accessibilità. Proponiamo pipeline robuste per costruire scheletri da due fonti di dati ricche di interazioni - interazioni uomo-oggetto (HOI) e manipolazione robotica abile - consentendo l'addestramento cross-dominio di modelli generativi guidati dall'azione. Integrando scheletri visivi in modelli di generazione video pre-addestrati tramite fine-tuning leggero, abilitiamo un controllo preciso dell'azione di interazioni complesse preservando l'apprendimento delle dinamiche cross-dominio. Esperimenti su EgoVid, RT-1 e DROID dimostrano l'efficacia del nostro approccio proposto. Pagina del progetto: https://zju3dv.github.io/VAP/.
English
We present visual action prompts, a unified action representation for action-to-video generation of complex high-DoF interactions while maintaining transferable visual dynamics across domains. Action-driven video generation faces a precision-generality trade-off: existing methods using text, primitive actions, or coarse masks offer generality but lack precision, while agent-centric action signals provide precision at the cost of cross-domain transferability. To balance action precision and dynamic transferability, we propose to "render" actions into precise visual prompts as domain-agnostic representations that preserve both geometric precision and cross-domain adaptability for complex actions; specifically, we choose visual skeletons for their generality and accessibility. We propose robust pipelines to construct skeletons from two interaction-rich data sources - human-object interactions (HOI) and dexterous robotic manipulation - enabling cross-domain training of action-driven generative models. By integrating visual skeletons into pretrained video generation models via lightweight fine-tuning, we enable precise action control of complex interaction while preserving the learning of cross-domain dynamics. Experiments on EgoVid, RT-1 and DROID demonstrate the effectiveness of our proposed approach. Project page: https://zju3dv.github.io/VAP/.
PDF112August 19, 2025