Plan-X: Generazione di Video Istruttivi tramite Pianificazione Semantica
Plan-X: Instruct Video Generation via Semantic Planning
November 22, 2025
Autori: Lun Huang, You Xie, Hongyi Xu, Tianpei Gu, Chenxu Zhang, Guoxian Song, Zenan Li, Xiaochen Zhao, Linjie Luo, Guillermo Sapiro
cs.AI
Abstract
I Diffusion Transformer hanno dimostrato capacità notevoli nella sintesi visiva, ma spesso incontrano difficoltà nel ragionamento semantico di alto livello e nella pianificazione a lungo termine. Questa limitazione porta frequentemente ad allucinazioni visive e disallineamenti con le istruzioni dell'utente, specialmente in scenari che coinvolgono la comprensione di scene complesse, interazioni uomo-oggetto, azioni multi-stadio e ragionamento motion in contesto. Per affrontare queste sfide, proponiamo Plan-X, un framework che applica esplicitamente una pianificazione semantica di alto livello per guidare il processo di generazione video. Il suo nucleo è costituito da un Semantic Planner, un modello linguistico multimodale addestrabile che ragiona sull'intento dell'utente a partire da prompt testuali e contesto visivo, e genera in modo autoregressivo una sequenza di token semantici spazio-temporali ancorati al testo. Questi token semantici, complementari alla guida di alto livello del prompt testuale, fungono da "schizzi semantici" strutturati nel tempo per il modello di diffusione video, che eccelle nel sintetizzare dettagli visivi ad alta fedeltà. Plan-X integra efficacemente la forza dei modelli linguistici nel ragionamento e pianificazione multimodale in contesto, con la forza dei modelli di diffusione nella sintesi video fotorealistica. Esperimenti estensivi dimostrano che il nostro framework riduce sostanzialmente le allucinazioni visive e abilita una generazione video granulare e allineata alle istruzioni, coerente con il contesto multimodale.
English
Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.