Video-Como-Incitación: Control Semántico Unificado para la Generación de Videos
Video-As-Prompt: Unified Semantic Control for Video Generation
October 23, 2025
Autores: Yuxuan Bian, Xin Chen, Zenan Li, Tiancheng Zhi, Shen Sang, Linjie Luo, Qiang Xu
cs.AI
Resumen
El control semántico unificado y generalizable en la generación de vídeo sigue siendo un desafío abierto crítico. Los métodos existentes introducen artefactos al imponer priores inapropiados a nivel de píxel desde controles basados en estructura, o dependen de ajustes específicos de condición no generalizables o arquitecturas específicas para cada tarea. Presentamos Video-As-Prompt (VAP), un nuevo paradigma que replantea este problema como una generación en contexto. VAP aprovecha un vídeo de referencia como prompt semántico directo, guiando un Transformer de Difusión de Vídeo (DiT) congelado mediante un experto Mixture-of-Transformers (MoT) plug-and-play. Esta arquitectura previene el olvido catastrófico y se guía por una codificación posicional con sesgo temporal que elimina los priores de mapeo espurios para una recuperación de contexto robusta. Para potenciar este enfoque y catalizar la investigación futura, construimos VAP-Data, el conjunto de datos más grande para generación de vídeo con control semántico, con más de 100K vídeos emparejados en 100 condiciones semánticas. Como modelo único unificado, VAP establece un nuevo estado del arte para los métodos de código abierto, logrando una tasa de preferencia de usuario del 38.7% que rivaliza con los principales modelos comerciales específicos por condición. La fuerte generalización zero-shot de VAP y su soporte para diversas aplicaciones posteriores marcan un avance significativo hacia la generación de vídeo controlable de propósito general.
English
Unified, generalizable semantic control in video generation remains a
critical open challenge. Existing methods either introduce artifacts by
enforcing inappropriate pixel-wise priors from structure-based controls, or
rely on non-generalizable, condition-specific finetuning or task-specific
architectures. We introduce Video-As-Prompt (VAP), a new paradigm that reframes
this problem as in-context generation. VAP leverages a reference video as a
direct semantic prompt, guiding a frozen Video Diffusion Transformer (DiT) via
a plug-and-play Mixture-of-Transformers (MoT) expert. This architecture
prevents catastrophic forgetting and is guided by a temporally biased position
embedding that eliminates spurious mapping priors for robust context retrieval.
To power this approach and catalyze future research, we built VAP-Data, the
largest dataset for semantic-controlled video generation with over 100K paired
videos across 100 semantic conditions. As a single unified model, VAP sets a
new state-of-the-art for open-source methods, achieving a 38.7% user preference
rate that rivals leading condition-specific commercial models. VAP's strong
zero-shot generalization and support for various downstream applications mark a
significant advance toward general-purpose, controllable video generation.