비디오-애즈-프롬프트: 비디오 생성을 위한 통합 의미론적 제어
Video-As-Prompt: Unified Semantic Control for Video Generation
October 23, 2025
저자: Yuxuan Bian, Xin Chen, Zenan Li, Tiancheng Zhi, Shen Sang, Linjie Luo, Qiang Xu
cs.AI
초록
통일적이고 일반화 가능한 비디오 생성의 의미론적 제어는 여전히 중요한 미해결 과제로 남아 있습니다. 기존 방법들은 구조 기반 제어에서 비롯된 부적절한 픽셀 단위 사전 지식을 강제함으로써 아티팩트를 도입하거나, 조건별 미세 조정이나 작업별 특화 아키텍처와 같이 일반화되지 않는 방식에 의존합니다. 본 연구에서는 이 문제를 컨텍스트 내 생성으로 재정의하는 새로운 패러다임인 Video-As-Prompt(VAP)를 소개합니다. VAP는 참조 비디오를 직접적인 의미론적 프롬프트로 활용하여, 플러그 앤 플레이 방식의 Mixture-of-Transformers(MoT) 전문가 모듈을 통해 고정된 Video Diffusion Transformer(DiT)를 안내합니다. 이 아키텍처는 치명적 망각을 방지하고, 강력한 컨텍스트 검색을 위해 허위 매핑 사전 지식을 제거하는 시간적 편향 포지션 임베딩에 의해 guided 됩니다.
이 접근법을 지원하고 향후 연구를 촉진하기 위해, 우리는 100개의 의미론적 조건에 걸쳐 10만 개 이상의 paired 비디오를 포함하는 의미론적 제어 비디오 생성 분야 최대 규모의 데이터셋인 VAP-Data를 구축했습니다. 단일 통합 모델로서 VAP는 오픈소스 방법론의 새로운 최첨단 성능을确立하며, 조건별 특화 상용 최상위 모델에 필적하는 38.7%의 사용자 선호도를 달성했습니다. VAP의 강력한 제로샷 일반화 성능과 다양한 다운스트림 애플리케이션 지원 능력은 범용 제어 가능 비디오 생성 기술을 향한 중요한 진전을 의미합니다.
English
Unified, generalizable semantic control in video generation remains a
critical open challenge. Existing methods either introduce artifacts by
enforcing inappropriate pixel-wise priors from structure-based controls, or
rely on non-generalizable, condition-specific finetuning or task-specific
architectures. We introduce Video-As-Prompt (VAP), a new paradigm that reframes
this problem as in-context generation. VAP leverages a reference video as a
direct semantic prompt, guiding a frozen Video Diffusion Transformer (DiT) via
a plug-and-play Mixture-of-Transformers (MoT) expert. This architecture
prevents catastrophic forgetting and is guided by a temporally biased position
embedding that eliminates spurious mapping priors for robust context retrieval.
To power this approach and catalyze future research, we built VAP-Data, the
largest dataset for semantic-controlled video generation with over 100K paired
videos across 100 semantic conditions. As a single unified model, VAP sets a
new state-of-the-art for open-source methods, achieving a 38.7% user preference
rate that rivals leading condition-specific commercial models. VAP's strong
zero-shot generalization and support for various downstream applications mark a
significant advance toward general-purpose, controllable video generation.