Видео-как-промпт: Единый семантический контроль для генерации видео
Video-As-Prompt: Unified Semantic Control for Video Generation
October 23, 2025
Авторы: Yuxuan Bian, Xin Chen, Zenan Li, Tiancheng Zhi, Shen Sang, Linjie Luo, Qiang Xu
cs.AI
Аннотация
Единый и универсальный семантический контроль в генерации видео остается важной нерешенной проблемой. Существующие методы либо порождают артефакты из-за наложения неподходящих пиксельных паттернов из структурно-ориентированных контролей, либо опираются на не универсальную тонкую настройку под конкретные условия или специализированные архитектуры. Мы представляем Video-As-Prompt (VAP) — новую парадигму, которая переосмысливает эту задачу как контекстную генерацию. VAP использует эталонное видео в качестве прямого семантического промпта, направляя замороженный Video Diffusion Transformer (DiT) через подключаемый модуль Mixture-of-Transformers (MoT). Эта архитектура предотвращает катастрофическое забывание и управляется временно-смещенным позиционным кодированием, которое исключает ложные априорные предположения для надежного извлечения контекста. Для реализации этого подхода и стимулирования будущих исследований мы создали VAP-Data — крупнейший датасет для семантически контролируемой генерации видео, содержащий более 100 тыс. пар видео по 100 семантическим условиям. Как единая универсальная модель, VAP устанавливает новый рекорд для открытых методов, демонстрируя 38.7% пользовательских предпочтений, что сопоставимо с ведущими коммерческими моделями, настроенными под конкретные условия. Высокая zero-shot обобщающая способность VAP и поддержка различных приложений знаменуют значительный прогресс в создании универсальных контролируемых систем генерации видео.
English
Unified, generalizable semantic control in video generation remains a
critical open challenge. Existing methods either introduce artifacts by
enforcing inappropriate pixel-wise priors from structure-based controls, or
rely on non-generalizable, condition-specific finetuning or task-specific
architectures. We introduce Video-As-Prompt (VAP), a new paradigm that reframes
this problem as in-context generation. VAP leverages a reference video as a
direct semantic prompt, guiding a frozen Video Diffusion Transformer (DiT) via
a plug-and-play Mixture-of-Transformers (MoT) expert. This architecture
prevents catastrophic forgetting and is guided by a temporally biased position
embedding that eliminates spurious mapping priors for robust context retrieval.
To power this approach and catalyze future research, we built VAP-Data, the
largest dataset for semantic-controlled video generation with over 100K paired
videos across 100 semantic conditions. As a single unified model, VAP sets a
new state-of-the-art for open-source methods, achieving a 38.7% user preference
rate that rivals leading condition-specific commercial models. VAP's strong
zero-shot generalization and support for various downstream applications mark a
significant advance toward general-purpose, controllable video generation.