ChatPaper.aiChatPaper

Plan-X: Instruktionsgestützte Videogenerierung durch semantische Planung

Plan-X: Instruct Video Generation via Semantic Planning

November 22, 2025
papers.authors: Lun Huang, You Xie, Hongyi Xu, Tianpei Gu, Chenxu Zhang, Guoxian Song, Zenan Li, Xiaochen Zhao, Linjie Luo, Guillermo Sapiro
cs.AI

papers.abstract

Diffusion Transformer haben bemerkenswerte Fähigkeiten in der visuellen Synthese gezeigt, kämpfen jedoch oft mit semantischer Abstraktionsfähigkeit und langfristiger Planung. Diese Einschränkung führt häufig zu visuellen Halluzinationen und Fehlausrichtungen mit Benutzeranweisungen, insbesondere in Szenarien mit komplexem Szenenverständnis, Mensch-Objekt-Interaktionen, mehrstufigen Aktionen und kontextbezogener Bewegungsreasoning. Um diese Herausforderungen zu bewältigen, schlagen wir Plan-X vor, ein Framework, das explizit semantische Abstraktionsplanung durchsetzt, um den Videogenerierungsprozess zu steuern. Im Kern befindet sich ein Semantic Planner, ein lernbares multimodales Sprachmodell, das die Absicht des Benutzers aus Textprompts und visuellem Kontext erschließt und autoregressiv eine Sequenz von textbasierten räumlich-zeitlichen semantischen Tokens erzeugt. Diese semantischen Tokens, die die hochlevelige Textprompt-Führung ergänzen, dienen dem Videodiffusionsmodell als strukturierte "semantische Skizzen" über die Zeit, dessen Stärke in der Synthese hochdetaillierter visueller Details liegt. Plan-X integriert effektiv die Stärken von Sprachmodellen im multimodalen kontextbezogenen Reasoning und in der Planung mit den Stärken von Diffusionsmodellen in der fotorealistischen Videogenerierung. Umfangreiche Experimente belegen, dass unser Framework visuelle Halluzinationen erheblich reduziert und eine fein abgestimmte, anweisungskonforme Videogenerierung ermöglicht, die mit dem multimodalen Kontext konsistent ist.
English
Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.
PDF182February 7, 2026