ChatPaper.aiChatPaper

Video-As-Prompt: 映像生成のための統合された意味的制御

Video-As-Prompt: Unified Semantic Control for Video Generation

October 23, 2025
著者: Yuxuan Bian, Xin Chen, Zenan Li, Tiancheng Zhi, Shen Sang, Linjie Luo, Qiang Xu
cs.AI

要旨

統一的な一般化可能な意味制御によるビデオ生成は、依然として重要な未解決課題である。既存手法は、構造ベースの制御から不適切なピクセル単位の事前分布を強制することでアーティファクトを生じさせるか、一般化不可能な条件特化のファインチューニングやタスク特化のアーキテクチャに依存している。本研究では、この問題を文脈内生成として再定義する新たなパラダイム「Video-As-Prompt(VAP)」を提案する。VAPは参照ビデオを直接的な意味的プロンプトとして活用し、固定されたVideo Diffusion Transformer(DiT)をプラグアンドプレイ型のMixture-of-Transformers(MoT)エキスパートを通じて誘導する。このアーキテクチャは破滅的忘却を防止し、時間的にバイアスされた位置埋め込みによって頑健な文脈検索のための偽のマッピング事前分布を排除する。 本手法を支え将来の研究を促進するため、100の意味的条件にわたる10万組以上のペアビデオを包含する意味制御ビデオ生成向け最大規模のデータセット「VAP-Data」を構築した。単一の統一モデルとして、VAPはオープンソース手法における新たな最高性能を達成し、条件特化型の主要商用モデルに匹敵する38.7%のユーザー選好率を実現した。VAPの強力なゼロショット一般化能力と多様な下流アプリケーションへの対応は、汎用性の高い制御可能なビデオ生成に向けた重要な進展を示している。
English
Unified, generalizable semantic control in video generation remains a critical open challenge. Existing methods either introduce artifacts by enforcing inappropriate pixel-wise priors from structure-based controls, or rely on non-generalizable, condition-specific finetuning or task-specific architectures. We introduce Video-As-Prompt (VAP), a new paradigm that reframes this problem as in-context generation. VAP leverages a reference video as a direct semantic prompt, guiding a frozen Video Diffusion Transformer (DiT) via a plug-and-play Mixture-of-Transformers (MoT) expert. This architecture prevents catastrophic forgetting and is guided by a temporally biased position embedding that eliminates spurious mapping priors for robust context retrieval. To power this approach and catalyze future research, we built VAP-Data, the largest dataset for semantic-controlled video generation with over 100K paired videos across 100 semantic conditions. As a single unified model, VAP sets a new state-of-the-art for open-source methods, achieving a 38.7% user preference rate that rivals leading condition-specific commercial models. VAP's strong zero-shot generalization and support for various downstream applications mark a significant advance toward general-purpose, controllable video generation.
PDF452December 17, 2025