ChatPaper.aiChatPaper

Video-As-Prompt: Uniforme Semantische Controle voor Videogeneratie

Video-As-Prompt: Unified Semantic Control for Video Generation

October 23, 2025
Auteurs: Yuxuan Bian, Xin Chen, Zenan Li, Tiancheng Zhi, Shen Sang, Linjie Luo, Qiang Xu
cs.AI

Samenvatting

Gegeneraliseerde semantische controle in videogeneratie blijft een cruciale, onopgeloste uitdaging. Bestaande methoden introduceren ofwel artefacten door het afdwingen van ongeschikte pixelgewijze aannames vanuit op structuur gebaseerde controles, of vertrouwen op niet-generaliseerbare, conditie-specifieke finetuning of taakspecifieke architecturen. Wij introduceren Video-As-Prompt (VAP), een nieuw paradigma dat dit probleem herformuleert als in-context generatie. VAP benut een referentievideo als een directe semantische prompt, die een bevroren Video Diffusion Transformer (DiT) aanstuurt via een plug-and-play Mixture-of-Transformers (MoT) expert. Deze architectuur voorkomt catastrofale vergetelheid en wordt geleid door een tijdelijk vooringenomen positionele inbedding die valse mapping-aannames elimineert voor robuuste contextretrieval. Om deze aanpak mogelijk te maken en toekomstig onderzoek te katalyseren, bouwden we VAP-Data, de grootste dataset voor semantisch-gestuurde videogeneratie met meer dan 100.000 gepaarde video's verspreid over 100 semantische condities. Als een enkele, verenigde model vestigt VAP een nieuwe state-of-the-art voor open-source methoden, met een gebruikersvoorkeurspercentage van 38.7% dat concurreert met toonaangevende conditie-specifieke commerciële modellen. VAP's sterke zero-shot generalisatie en ondersteuning voor diverse downstream toepassingen markeren een significante vooruitgang richting algemeen toepasbare, bestuurbare videogeneratie.
English
Unified, generalizable semantic control in video generation remains a critical open challenge. Existing methods either introduce artifacts by enforcing inappropriate pixel-wise priors from structure-based controls, or rely on non-generalizable, condition-specific finetuning or task-specific architectures. We introduce Video-As-Prompt (VAP), a new paradigm that reframes this problem as in-context generation. VAP leverages a reference video as a direct semantic prompt, guiding a frozen Video Diffusion Transformer (DiT) via a plug-and-play Mixture-of-Transformers (MoT) expert. This architecture prevents catastrophic forgetting and is guided by a temporally biased position embedding that eliminates spurious mapping priors for robust context retrieval. To power this approach and catalyze future research, we built VAP-Data, the largest dataset for semantic-controlled video generation with over 100K paired videos across 100 semantic conditions. As a single unified model, VAP sets a new state-of-the-art for open-source methods, achieving a 38.7% user preference rate that rivals leading condition-specific commercial models. VAP's strong zero-shot generalization and support for various downstream applications mark a significant advance toward general-purpose, controllable video generation.
PDF452December 17, 2025