Precisie Actie-naar-Video Generatie via Visuele Actieprompts
Precise Action-to-Video Generation Through Visual Action Prompts
August 18, 2025
Auteurs: Yuang Wang, Chao Wen, Haoyu Guo, Sida Peng, Minghan Qin, Hujun Bao, Xiaowei Zhou, Ruizhen Hu
cs.AI
Samenvatting
We presenteren visuele actieprompts, een uniforme actierepresentatie voor
actie-naar-video-generatie van complexe interacties met een hoge mate van
vrijheidsgraden (DoF), terwijl overdraagbare visuele dynamiek tussen domeinen
behouden blijft. Actiegedreven videogeneratie staat voor een precisie-algemeenheid
afweging: bestaande methoden die tekst, primitieve acties of grove maskers
gebruiken, bieden algemeenheid maar missen precisie, terwijl
agent-gerichte actiesignalen precisie bieden ten koste van overdraagbaarheid tussen
domeinen. Om actieprecisie en dynamische overdraagbaarheid in evenwicht te brengen,
stellen we voor om acties te "renderen" in precieze visuele prompts als
domein-agnostische representaties die zowel geometrische precisie als
aanpassingsvermogen tussen domeinen behouden voor complexe acties; specifiek
kiezen we voor visuele skeletten vanwege hun algemeenheid en toegankelijkheid. We
stellen robuuste pipelines voor om skeletten te construeren uit twee
interactierijke databronnen - mens-objectinteracties (HOI) en behendige
robotmanipulatie - waardoor domeinoverschrijdende training van
actiegedreven generatieve modellen mogelijk wordt. Door visuele skeletten te
integreren in voorgetrainde videogeneratiemodellen via lichtgewicht
fine-tuning, maken we precieze actiecontrole van complexe interacties mogelijk
terwijl het leren van domeinoverschrijdende dynamiek behouden blijft. Experimenten
op EgoVid, RT-1 en DROID demonstreren de effectiviteit van onze voorgestelde
aanpak. Projectpagina: https://zju3dv.github.io/VAP/.
English
We present visual action prompts, a unified action representation for
action-to-video generation of complex high-DoF interactions while maintaining
transferable visual dynamics across domains. Action-driven video generation
faces a precision-generality trade-off: existing methods using text, primitive
actions, or coarse masks offer generality but lack precision, while
agent-centric action signals provide precision at the cost of cross-domain
transferability. To balance action precision and dynamic transferability, we
propose to "render" actions into precise visual prompts as domain-agnostic
representations that preserve both geometric precision and cross-domain
adaptability for complex actions; specifically, we choose visual skeletons for
their generality and accessibility. We propose robust pipelines to construct
skeletons from two interaction-rich data sources - human-object interactions
(HOI) and dexterous robotic manipulation - enabling cross-domain training of
action-driven generative models. By integrating visual skeletons into
pretrained video generation models via lightweight fine-tuning, we enable
precise action control of complex interaction while preserving the learning of
cross-domain dynamics. Experiments on EgoVid, RT-1 and DROID demonstrate the
effectiveness of our proposed approach. Project page:
https://zju3dv.github.io/VAP/.