ChatPaper.aiChatPaper

Génération précise de vidéos à partir d'actions grâce à des invites visuelles d'action

Precise Action-to-Video Generation Through Visual Action Prompts

August 18, 2025
papers.authors: Yuang Wang, Chao Wen, Haoyu Guo, Sida Peng, Minghan Qin, Hujun Bao, Xiaowei Zhou, Ruizhen Hu
cs.AI

papers.abstract

Nous présentons les prompts visuels d'action, une représentation unifiée des actions pour la génération vidéo à partir d'actions impliquant des interactions complexes à haut degré de liberté (DoF), tout en maintenant des dynamiques visuelles transférables entre domaines. La génération vidéo pilotée par l'action est confrontée à un compromis entre précision et généralité : les méthodes existantes utilisant du texte, des actions primitives ou des masques grossiers offrent de la généralité mais manquent de précision, tandis que les signaux d'action centrés sur l'agent fournissent de la précision au détriment de la transférabilité inter-domaines. Pour équilibrer la précision de l'action et la transférabilité dynamique, nous proposons de "rendre" les actions en prompts visuels précis comme représentations agnostiques au domaine, préservant à la fois la précision géométrique et l'adaptabilité inter-domaines pour des actions complexes ; plus spécifiquement, nous choisissons les squelettes visuels pour leur généralité et accessibilité. Nous proposons des pipelines robustes pour construire des squelettes à partir de deux sources de données riches en interactions - les interactions humain-objet (HOI) et la manipulation robotique dextre - permettant un entraînement inter-domaines de modèles génératifs pilotés par l'action. En intégrant les squelettes visuels dans des modèles de génération vidéo pré-entraînés via un ajustement fin léger, nous permettons un contrôle précis des actions d'interaction complexe tout en préservant l'apprentissage des dynamiques inter-domaines. Les expériences sur EgoVid, RT-1 et DROID démontrent l'efficacité de notre approche proposée. Page du projet : https://zju3dv.github.io/VAP/.
English
We present visual action prompts, a unified action representation for action-to-video generation of complex high-DoF interactions while maintaining transferable visual dynamics across domains. Action-driven video generation faces a precision-generality trade-off: existing methods using text, primitive actions, or coarse masks offer generality but lack precision, while agent-centric action signals provide precision at the cost of cross-domain transferability. To balance action precision and dynamic transferability, we propose to "render" actions into precise visual prompts as domain-agnostic representations that preserve both geometric precision and cross-domain adaptability for complex actions; specifically, we choose visual skeletons for their generality and accessibility. We propose robust pipelines to construct skeletons from two interaction-rich data sources - human-object interactions (HOI) and dexterous robotic manipulation - enabling cross-domain training of action-driven generative models. By integrating visual skeletons into pretrained video generation models via lightweight fine-tuning, we enable precise action control of complex interaction while preserving the learning of cross-domain dynamics. Experiments on EgoVid, RT-1 and DROID demonstrate the effectiveness of our proposed approach. Project page: https://zju3dv.github.io/VAP/.
PDF82August 19, 2025