ChatPaper.aiChatPaper

Vidéo-Comme-Incitant : Contrôle Sémantique Unifié pour la Génération de Vidéos

Video-As-Prompt: Unified Semantic Control for Video Generation

October 23, 2025
papers.authors: Yuxuan Bian, Xin Chen, Zenan Li, Tiancheng Zhi, Shen Sang, Linjie Luo, Qiang Xu
cs.AI

papers.abstract

Le contrôle sémantique unifié et généralisable dans la génération vidéo reste un défi ouvert majeur. Les méthodes existantes introduisent soit des artéfacts en imposant des prérequis pixelliques inappropriés issus de contrôles structurels, soit reposent sur un fine-tuning non généralisable spécifique à la condition ou sur des architectures spécialisées par tâche. Nous présentons Video-As-Prompt (VAP), un nouveau paradigme qui reformule ce problème comme une génération contextuelle. VAP exploite une vidéo de référence comme prompt sémantique direct, guidant un Transformeur de Diffusion Vidéo (DiT) figé via un expert Mixture-of-Transformers (MoT) plug-and-play. Cette architecture prévient l'oubli catastrophique et est guidée par un embedding positionnel temporellement biaisé qui élimine les prérequis de mapping spuriaux pour une récupération contextuelle robuste. Pour soutenir cette approche et catalyser la recherche future, nous avons constitué VAP-Data, le plus grand jeu de données pour la génération vidéo sémantiquement contrôlée avec plus de 100 000 vidéos appariées couvrant 100 conditions sémantiques. En tant que modèle unique unifié, VAP établit un nouvel état de l'art pour les méthodes open-source, atteignant un taux de préférence utilisateur de 38,7% qui rivalise avec les modèles commerciaux leaders spécialisés par condition. La forte généralisation zero-shot de VAP et son support pour diverses applications en aval marquent une avancée significative vers la génération vidéo contrôlée à usage général.
English
Unified, generalizable semantic control in video generation remains a critical open challenge. Existing methods either introduce artifacts by enforcing inappropriate pixel-wise priors from structure-based controls, or rely on non-generalizable, condition-specific finetuning or task-specific architectures. We introduce Video-As-Prompt (VAP), a new paradigm that reframes this problem as in-context generation. VAP leverages a reference video as a direct semantic prompt, guiding a frozen Video Diffusion Transformer (DiT) via a plug-and-play Mixture-of-Transformers (MoT) expert. This architecture prevents catastrophic forgetting and is guided by a temporally biased position embedding that eliminates spurious mapping priors for robust context retrieval. To power this approach and catalyze future research, we built VAP-Data, the largest dataset for semantic-controlled video generation with over 100K paired videos across 100 semantic conditions. As a single unified model, VAP sets a new state-of-the-art for open-source methods, achieving a 38.7% user preference rate that rivals leading condition-specific commercial models. VAP's strong zero-shot generalization and support for various downstream applications mark a significant advance toward general-purpose, controllable video generation.
PDF452December 17, 2025