ChatPaper.aiChatPaper

Plan-X: 意味的計画による指導的ビデオ生成

Plan-X: Instruct Video Generation via Semantic Planning

November 22, 2025
著者: Lun Huang, You Xie, Hongyi Xu, Tianpei Gu, Chenxu Zhang, Guoxian Song, Zenan Li, Xiaochen Zhao, Linjie Luo, Guillermo Sapiro
cs.AI

要旨

拡散トランスフォーマーは視覚的合成において顕著な能力を発揮するが、高次セマンティック推論や長期計画の課題に直面することが多い。この制約は特に、複雑なシーン理解、人物と物体の相互作用、多段階アクション、文脈に基づく動作推論を含むシナリオにおいて、視覚的幻覚やユーザー指示との不一致を頻繁に引き起こす。これらの課題に対処するため、我々は高次セマンティック計画を明示的に強化して映像生成プロセスを誘導するフレームワーク「Plan-X」を提案する。その中核には、学習可能なマルチモーダル言語モデルであるセマンティックプランナーが位置し、テキストプロンプトと視覚的文脈からユーザーの意図を推論し、テキストに基づく時空間セマンティックトークンの系列を自己回帰的に生成する。これらのセマンティックトークンは、高次テキストプロンプト指導を補完し、時間経過に伴う構造化された「セマンティックスケッチ」として、高精細な視覚的詳細の合成に強みを持つ映像拡散モデルに機能する。Plan-Xは、マルチモーダル文脈内推論・計画における言語モデルの強みと、写実的映像合成における拡散モデルの強みを効果的に統合する。大規模な実験により、本フレームワークが視覚的幻覚を大幅に低減し、マルチモーダル文脈と整合した細粒度の指示整合型映像生成を実現することを実証する。
English
Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.
PDF182February 7, 2026