ChatPaper.aiChatPaper

Plan-X: Geïnstrueerde Videogeneratie via Semantische Planning

Plan-X: Instruct Video Generation via Semantic Planning

November 22, 2025
Auteurs: Lun Huang, You Xie, Hongyi Xu, Tianpei Gu, Chenxu Zhang, Guoxian Song, Zenan Li, Xiaochen Zhao, Linjie Luo, Guillermo Sapiro
cs.AI

Samenvatting

Diffusion Transformers hebben indrukwekkende capaciteiten getoond in visuele synthese, maar worstelen vaak met semantisch redeneren op hoog niveau en planning over langere tijdshorizons. Deze beperking leidt frequent tot visuele hallucinaties en afwijkingen van gebruikersinstructies, vooral in scenario's met complexe scènebegrip, mens-object interacties, meerstapsacties en in-context bewegingsredenering. Om deze uitdagingen aan te pakken, stellen we Plan-X voor, een raamwerk dat expliciet semantische planning op hoog niveau afdwingt om het videogeneratieproces aan te sturen. De kern bestaat uit een Semantische Planner, een leerbaar multimodaal taalmodel dat redeneert over de intentie van de gebruiker op basis van zowel tekstprompts als visuele context, en autogressief een reeks tekstgebonden ruimtelijk-temporele semantische tokens genereert. Deze semantische tokens, complementair aan begeleiding op hoog niveau via tekstprompts, dienen als gestructureerde "semantische schetsen" in de tijd voor het videodiffusiemodel, dat sterk is in het synthetiseren van visuele details met hoge geloofwaardigheid. Plan-X integreert effectief de kracht van taalmodellen in multimodaal in-context redeneren en planning, samen met de kracht van diffusiemodellen in fotorealistische videosynthese. Uitgebreide experimenten tonen aan dat ons raamwerk visuele hallucinaties aanzienlijk vermindert en fijnmazige, instructie-afgestemde videogeneratie mogelijk maakt die consistent is met de multimodale context.
English
Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.
PDF162December 3, 2025