Video-As-Prompt: Controllo Semantico Unificato per la Generazione di Video
Video-As-Prompt: Unified Semantic Control for Video Generation
October 23, 2025
Autori: Yuxuan Bian, Xin Chen, Zenan Li, Tiancheng Zhi, Shen Sang, Linjie Luo, Qiang Xu
cs.AI
Abstract
Il controllo semantico unificato e generalizzabile nella generazione video rimane una sfida aperta cruciale. I metodi esistenti introducono artefatti applicando prior inappropriati a livello di pixel da controlli basati sulla struttura, oppure si basano su fine-tuning non generalizzabili e specifici per condizione o su architetture specializzate per compito. Introduciamo Video-As-Prompt (VAP), un nuovo paradigma che riformula questo problema come generazione in contesto. VAP utilizza un video di riferimento come prompt semantico diretto, guidando un Video Diffusion Transformer (DiT) congelato tramite un esperto plug-and-play Mixture-of-Transformers (MoT). Questa architettura previene la dimenticanza catastrofica ed è guidata da un embedding posizionale con bias temporale che elimina le prior di mappatura spurie per un recupero del contesto robusto. Per supportare questo approccio e catalizzare la ricerca futura, abbiamo creato VAP-Data, il più grande dataset per la generazione video controllata semanticamente, con oltre 100.000 video accoppiati attraverso 100 condizioni semantiche. Come modello unificato singolo, VAP stabilisce un nuovo stato dell'arte per i metodi open-source, raggiungendo un tasso di preferenza utente del 38,7% che rivaleggia con i principali modelli commerciali specifici per condizione. La forte generalizzazione zero-shot di VAP e il supporto per varie applicazioni a valle segnano un progresso significativo verso la generazione video versatile e controllabile.
English
Unified, generalizable semantic control in video generation remains a
critical open challenge. Existing methods either introduce artifacts by
enforcing inappropriate pixel-wise priors from structure-based controls, or
rely on non-generalizable, condition-specific finetuning or task-specific
architectures. We introduce Video-As-Prompt (VAP), a new paradigm that reframes
this problem as in-context generation. VAP leverages a reference video as a
direct semantic prompt, guiding a frozen Video Diffusion Transformer (DiT) via
a plug-and-play Mixture-of-Transformers (MoT) expert. This architecture
prevents catastrophic forgetting and is guided by a temporally biased position
embedding that eliminates spurious mapping priors for robust context retrieval.
To power this approach and catalyze future research, we built VAP-Data, the
largest dataset for semantic-controlled video generation with over 100K paired
videos across 100 semantic conditions. As a single unified model, VAP sets a
new state-of-the-art for open-source methods, achieving a 38.7% user preference
rate that rivals leading condition-specific commercial models. VAP's strong
zero-shot generalization and support for various downstream applications mark a
significant advance toward general-purpose, controllable video generation.