Generación precisa de video a partir de acciones mediante indicaciones visuales de acción
Precise Action-to-Video Generation Through Visual Action Prompts
August 18, 2025
Autores: Yuang Wang, Chao Wen, Haoyu Guo, Sida Peng, Minghan Qin, Hujun Bao, Xiaowei Zhou, Ruizhen Hu
cs.AI
Resumen
Presentamos indicaciones visuales de acción, una representación unificada de acciones para la generación de vídeo a partir de acciones de interacciones complejas con alto grado de libertad (DoF), manteniendo dinámicas visuales transferibles entre dominios. La generación de vídeo impulsada por acciones enfrenta un equilibrio entre precisión y generalidad: los métodos existentes que utilizan texto, acciones primitivas o máscaras aproximadas ofrecen generalidad pero carecen de precisión, mientras que las señales de acción centradas en el agente proporcionan precisión a costa de la transferibilidad entre dominios. Para equilibrar la precisión de la acción y la transferibilidad dinámica, proponemos "renderizar" las acciones en indicaciones visuales precisas como representaciones independientes del dominio que preservan tanto la precisión geométrica como la adaptabilidad entre dominios para acciones complejas; específicamente, elegimos esqueletos visuales por su generalidad y accesibilidad. Proponemos pipelines robustos para construir esqueletos a partir de dos fuentes de datos ricas en interacciones: interacciones humano-objeto (HOI) y manipulación robótica diestra, permitiendo el entrenamiento entre dominios de modelos generativos impulsados por acciones. Al integrar esqueletos visuales en modelos de generación de vídeo preentrenados mediante ajuste fino ligero, habilitamos un control preciso de acciones en interacciones complejas mientras preservamos el aprendizaje de dinámicas entre dominios. Los experimentos en EgoVid, RT-1 y DROID demuestran la efectividad de nuestro enfoque propuesto. Página del proyecto: https://zju3dv.github.io/VAP/.
English
We present visual action prompts, a unified action representation for
action-to-video generation of complex high-DoF interactions while maintaining
transferable visual dynamics across domains. Action-driven video generation
faces a precision-generality trade-off: existing methods using text, primitive
actions, or coarse masks offer generality but lack precision, while
agent-centric action signals provide precision at the cost of cross-domain
transferability. To balance action precision and dynamic transferability, we
propose to "render" actions into precise visual prompts as domain-agnostic
representations that preserve both geometric precision and cross-domain
adaptability for complex actions; specifically, we choose visual skeletons for
their generality and accessibility. We propose robust pipelines to construct
skeletons from two interaction-rich data sources - human-object interactions
(HOI) and dexterous robotic manipulation - enabling cross-domain training of
action-driven generative models. By integrating visual skeletons into
pretrained video generation models via lightweight fine-tuning, we enable
precise action control of complex interaction while preserving the learning of
cross-domain dynamics. Experiments on EgoVid, RT-1 and DROID demonstrate the
effectiveness of our proposed approach. Project page:
https://zju3dv.github.io/VAP/.