Plan-X: Geração de Vídeo Instrucional por meio de Planeamento Semântico
Plan-X: Instruct Video Generation via Semantic Planning
November 22, 2025
Autores: Lun Huang, You Xie, Hongyi Xu, Tianpei Gu, Chenxu Zhang, Guoxian Song, Zenan Li, Xiaochen Zhao, Linjie Luo, Guillermo Sapiro
cs.AI
Resumo
Os Transformers de Difusão demonstraram capacidades notáveis em síntese visual, mas frequentemente lutam com raciocínio semântico de alto nível e planejamento de longo horizonte. Esta limitação frequentemente leva a alucinações visuais e desalinhamentos com as instruções do utilizador, especialmente em cenários envolvendo compreensão complexa de cenas, interações humano-objeto, ações multiestágio e raciocínio de movimento em contexto. Para enfrentar estes desafios, propomos o Plan-X, uma estrutura que aplica explicitamente planeamento semântico de alto nível para instruir o processo de geração de vídeo. No seu núcleo encontra-se um Planeador Semântico, um modelo de linguagem multimodal treinável que raciocina sobre a intenção do utilizador a partir de prompts de texto e contexto visual, e gera autoregressivamente uma sequência de tokens semânticos espaço-temporais ancorados em texto. Estes tokens semânticos, complementares à orientação de alto nível do prompt de texto, servem como "esboços semânticos" estruturados ao longo do tempo para o modelo de difusão de vídeo, que tem a sua força na síntese de detalhes visuais de alta fidelidade. O Plan-X integra efetivamente a força dos modelos de linguagem no raciocínio e planeamento multimodal em contexto, juntamente com a força dos modelos de difusão na síntese de vídeo fotorrealista. Experimentos extensivos demonstram que a nossa estrutura reduz substancialmente as alucinações visuais e permite uma geração de vídeo refinada e alinhada com instruções, consistente com o contexto multimodal.
English
Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.