ChatPaper.aiChatPaper

Präzise Aktions-zu-Video-Generierung durch visuelle Aktionsaufforderungen

Precise Action-to-Video Generation Through Visual Action Prompts

August 18, 2025
papers.authors: Yuang Wang, Chao Wen, Haoyu Guo, Sida Peng, Minghan Qin, Hujun Bao, Xiaowei Zhou, Ruizhen Hu
cs.AI

papers.abstract

Wir präsentieren visuelle Aktionsprompts, eine einheitliche Aktionsrepräsentation für die Aktion-zu-Video-Generierung komplexer Interaktionen mit hohem Freiheitsgrad, während gleichzeitig übertragbare visuelle Dynamiken über Domänen hinweg erhalten bleiben. Die aktionsgesteuerte Videogenerierung steht vor einem Präzisions-Generalisierungs-Dilemma: bestehende Methoden, die Text, primitive Aktionen oder grobe Masken verwenden, bieten Generalisierbarkeit, aber mangelt es an Präzision, während agentenzentrierte Aktionssignale Präzision auf Kosten der domänenübergreifenden Übertragbarkeit bieten. Um Aktionspräzision und dynamische Übertragbarkeit auszugleichen, schlagen wir vor, Aktionen in präzise visuelle Prompts zu „rendern“ als domänenunabhängige Repräsentationen, die sowohl geometrische Präzision als auch domänenübergreifende Anpassungsfähigkeit für komplexe Aktionen bewahren; speziell wählen wir visuelle Skelette aufgrund ihrer Generalisierbarkeit und Zugänglichkeit. Wir schlagen robuste Pipelines vor, um Skelette aus zwei interaktionsreichen Datenquellen zu konstruieren – Mensch-Objekt-Interaktionen (HOI) und geschickte robotische Manipulation –, die ein domänenübergreifendes Training aktionsgesteuerter generativer Modelle ermöglichen. Durch die Integration visueller Skelette in vortrainierte Videogenerierungsmodelle via leichtgewichtiger Feinabstimmung ermöglichen wir präzise Aktionskontrolle komplexer Interaktionen, während das Lernen domänenübergreifender Dynamiken erhalten bleibt. Experimente auf EgoVid, RT-1 und DROID demonstrieren die Effektivität unseres vorgeschlagenen Ansatzes. Projektseite: https://zju3dv.github.io/VAP/.
English
We present visual action prompts, a unified action representation for action-to-video generation of complex high-DoF interactions while maintaining transferable visual dynamics across domains. Action-driven video generation faces a precision-generality trade-off: existing methods using text, primitive actions, or coarse masks offer generality but lack precision, while agent-centric action signals provide precision at the cost of cross-domain transferability. To balance action precision and dynamic transferability, we propose to "render" actions into precise visual prompts as domain-agnostic representations that preserve both geometric precision and cross-domain adaptability for complex actions; specifically, we choose visual skeletons for their generality and accessibility. We propose robust pipelines to construct skeletons from two interaction-rich data sources - human-object interactions (HOI) and dexterous robotic manipulation - enabling cross-domain training of action-driven generative models. By integrating visual skeletons into pretrained video generation models via lightweight fine-tuning, we enable precise action control of complex interaction while preserving the learning of cross-domain dynamics. Experiments on EgoVid, RT-1 and DROID demonstrate the effectiveness of our proposed approach. Project page: https://zju3dv.github.io/VAP/.
PDF82August 19, 2025