Plan-X: 의미론적 계획을 통한 비디오 생성 지시
Plan-X: Instruct Video Generation via Semantic Planning
November 22, 2025
저자: Lun Huang, You Xie, Hongyi Xu, Tianpei Gu, Chenxu Zhang, Guoxian Song, Zenan Li, Xiaochen Zhao, Linjie Luo, Guillermo Sapiro
cs.AI
초록
확산 트랜스포머는 시각 합성에서 놀라운 능력을 입증했으나, 고차원적 의미론적 추론과 장기 계획에는 종종 어려움을 겪습니다. 이러한 한계는 복잡한 장면 이해, 인간-객체 상호작용, 다단계 행동, 맥락 내 동작 추론이 포함된 시나리오에서 특히 시각적 환각과 사용자 지시 불일치를 빈번히 초래합니다. 이러한 문제를 해결하기 위해 본 연구에서는 고차원 의미론적 계획을 명시적으로 강화하여 비디오 생성 과정을 지시하는 Plan-X 프레임워크를 제안합니다. 그 핵심에는 학습 가능한 다중모달 언어 모델인 의미론적 플래너가 있으며, 이는 텍스트 프롬프트와 시각적 맥락 모두에서 사용자의 의도를 추론하고, 자동회귀적으로 텍스트 기반 시공간 의미론적 토큰 시퀀스를 생성합니다. 이러한 의미론적 토큰은 고차원 텍스트 프롬프트 지도와 상호 보완적으로 작용하며, 시간에 따른 구조화된 "의미론적 스케치" 역할을 통해 고충실도 시각적 디테일 합성에 강점을 지닌 비디오 확산 모델에 제공됩니다. Plan-X는 다중모달 맥락 내 추론 및 계획에 있어 언어 모델의 강점과 사실적 비디오 합성에 있어 확산 모델의 강점을 효과적으로 통합합니다. 광범위한 실험을 통해 본 프레임워크가 시각적 환각을 상당히 줄이고 다중모달 맥락과 일관된 세밀한 지시-정렬 비디오 생성을 가능하게 함을 입증합니다.
English
Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.