Video-As-Prompt: Vereinheitlichte semantische Steuerung für die Videogenerierung
Video-As-Prompt: Unified Semantic Control for Video Generation
October 23, 2025
papers.authors: Yuxuan Bian, Xin Chen, Zenan Li, Tiancheng Zhi, Shen Sang, Linjie Luo, Qiang Xu
cs.AI
papers.abstract
Die einheitliche, verallgemeinerbare semantische Steuerung in der Videogenerierung bleibt eine kritische, ungelöste Herausforderung. Bestehende Methoden führen entweder Artefakte durch die Durchsetzung ungeeigneter pixelweiser Priors aus struktur-basierten Steuerungen ein oder verlassen sich auf nicht-verallgemeinerbares, conditionsspezifisches Finetuning oder aufgabenspezifische Architekturen. Wir stellen Video-As-Prompt (VAP) vor, ein neues Paradigma, das dieses Problem als In-Context-Generierung neu definiert. VAP nutzt ein Referenzvideo als direkte semantische Eingabeaufforderung, die ein eingefrorenes Video Diffusion Transformer (DiT)-Modell über einen Plug-and-Play Mixture-of-Transformers (MoT)-Experten steuert. Diese Architektur verhindert katastrophales Vergessen und wird durch eine temporal verzerrte Positionseinbettung geleitet, die fehlerhafte Mapping-Priors für einen robusten Kontextabruf eliminiert. Um diesen Ansatz zu ermöglichen und zukünftige Forschung zu beschleunigen, haben wir VAP-Data aufgebaut, den größten Datensatz für semantisch gesteuerte Videogenerierung mit über 100.000 gepaarten Videos über 100 semantische Bedingungen hinweg. Als einheitliches Einzelmodell setzt VAP einen neuen Maßstab für Open-Source-Methoden und erreicht eine Nutzerpräferenzrate von 38,7 %, die mit führenden conditionsspezifischen kommerziellen Modellen konkurriert. VAPs starke Zero-Shot-Generalisiertung und Unterstützung für verschiedene Downstream-Anwendungen markieren einen bedeutenden Fortschritt in Richtung einer universellen, steuerbaren Videogenerierung.
English
Unified, generalizable semantic control in video generation remains a
critical open challenge. Existing methods either introduce artifacts by
enforcing inappropriate pixel-wise priors from structure-based controls, or
rely on non-generalizable, condition-specific finetuning or task-specific
architectures. We introduce Video-As-Prompt (VAP), a new paradigm that reframes
this problem as in-context generation. VAP leverages a reference video as a
direct semantic prompt, guiding a frozen Video Diffusion Transformer (DiT) via
a plug-and-play Mixture-of-Transformers (MoT) expert. This architecture
prevents catastrophic forgetting and is guided by a temporally biased position
embedding that eliminates spurious mapping priors for robust context retrieval.
To power this approach and catalyze future research, we built VAP-Data, the
largest dataset for semantic-controlled video generation with over 100K paired
videos across 100 semantic conditions. As a single unified model, VAP sets a
new state-of-the-art for open-source methods, achieving a 38.7% user preference
rate that rivals leading condition-specific commercial models. VAP's strong
zero-shot generalization and support for various downstream applications mark a
significant advance toward general-purpose, controllable video generation.