ChatPaper.aiChatPaper

Geração Precisa de Vídeo a partir de Ações por meio de Prompts Visuais de Ação

Precise Action-to-Video Generation Through Visual Action Prompts

August 18, 2025
Autores: Yuang Wang, Chao Wen, Haoyu Guo, Sida Peng, Minghan Qin, Hujun Bao, Xiaowei Zhou, Ruizhen Hu
cs.AI

Resumo

Apresentamos os prompts visuais de ação, uma representação unificada de ações para a geração de vídeos a partir de interações complexas de alto grau de liberdade (DoF), mantendo dinâmicas visuais transferíveis entre domínios. A geração de vídeos orientada por ações enfrenta um dilema entre precisão e generalidade: métodos existentes que utilizam texto, ações primitivas ou máscaras grosseiras oferecem generalidade, mas carecem de precisão, enquanto sinais de ação centrados no agente fornecem precisão em detrimento da transferibilidade entre domínios. Para equilibrar a precisão da ação e a transferibilidade dinâmica, propomos "renderizar" ações em prompts visuais precisos como representações agnósticas de domínio que preservam tanto a precisão geométrica quanto a adaptabilidade entre domínios para ações complexas; especificamente, escolhemos esqueletos visuais por sua generalidade e acessibilidade. Propomos pipelines robustos para construir esqueletos a partir de duas fontes de dados ricas em interações - interações humano-objeto (HOI) e manipulação robótica destra - permitindo o treinamento entre domínios de modelos generativos orientados por ações. Ao integrar esqueletos visuais em modelos de geração de vídeos pré-treinados por meio de ajuste fino leve, habilitamos o controle preciso de ações em interações complexas, preservando o aprendizado de dinâmicas entre domínios. Experimentos no EgoVid, RT-1 e DROID demonstram a eficácia da nossa abordagem proposta. Página do projeto: https://zju3dv.github.io/VAP/.
English
We present visual action prompts, a unified action representation for action-to-video generation of complex high-DoF interactions while maintaining transferable visual dynamics across domains. Action-driven video generation faces a precision-generality trade-off: existing methods using text, primitive actions, or coarse masks offer generality but lack precision, while agent-centric action signals provide precision at the cost of cross-domain transferability. To balance action precision and dynamic transferability, we propose to "render" actions into precise visual prompts as domain-agnostic representations that preserve both geometric precision and cross-domain adaptability for complex actions; specifically, we choose visual skeletons for their generality and accessibility. We propose robust pipelines to construct skeletons from two interaction-rich data sources - human-object interactions (HOI) and dexterous robotic manipulation - enabling cross-domain training of action-driven generative models. By integrating visual skeletons into pretrained video generation models via lightweight fine-tuning, we enable precise action control of complex interaction while preserving the learning of cross-domain dynamics. Experiments on EgoVid, RT-1 and DROID demonstrate the effectiveness of our proposed approach. Project page: https://zju3dv.github.io/VAP/.
PDF102August 19, 2025