ChatPaper.aiChatPaper

Plan-X : Génération de vidéos guidée par planification sémantique

Plan-X: Instruct Video Generation via Semantic Planning

November 22, 2025
papers.authors: Lun Huang, You Xie, Hongyi Xu, Tianpei Gu, Chenxu Zhang, Guoxian Song, Zenan Li, Xiaochen Zhao, Linjie Luo, Guillermo Sapiro
cs.AI

papers.abstract

Les Transformers à Diffusion ont démontré des capacités remarquables en synthèse visuelle, mais ils peinent souvent avec le raisonnement sémantique de haut niveau et la planification à long terme. Cette limitation entraîne fréquemment des hallucinations visuelles et des incohérences avec les instructions utilisateur, particulièrement dans les scénarios impliquant une compréhension de scène complexe, des interactions humain-objet, des actions multi-étapes et un raisonnement motionnel en contexte. Pour relever ces défis, nous proposons Plan-X, un cadre qui impose explicitement une planification sémantique de haut niveau pour guider le processus de génération vidéo. Son cœur repose sur un Planificateur Sémantique, un modèle de langage multimodal apprenable qui raisonne sur l'intention de l'utilisateur à partir des invites textuelles et du contexte visuel, et génère de manière autoregressive une séquence de jetons sémantiques spatio-temporels ancrés dans le texte. Ces jetons sémantiques, complémentaires aux instructions textuelles de haut niveau, servent d'« esquisses sémantiques » structurées dans le temps pour le modèle de diffusion vidéo, qui excelle dans la synthèse de détails visuels à haute fidélité. Plan-X intègre efficacement la force des modèles de langage en raisonnement et planification multimodale en contexte, avec la force des modèles de diffusion en synthèse vidéo photoréaliste. Des expériences approfondies démontrent que notre cadre réduit substantiellement les hallucinations visuelles et permet une génération vidéo granulaire, alignée sur les instructions et cohérente avec le contexte multimodal.
English
Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.
PDF182February 7, 2026