Plan-X: Geração de Vídeo Instrucional por meio de Planeamento Semântico

Resumo

Os Transformers de Difusão demonstraram capacidades notáveis em síntese visual, mas frequentemente lutam com raciocínio semântico de alto nível e planejamento de longo horizonte. Esta limitação frequentemente leva a alucinações visuais e desalinhamentos com as instruções do utilizador, especialmente em cenários envolvendo compreensão complexa de cenas, interações humano-objeto, ações multiestágio e raciocínio de movimento em contexto. Para enfrentar estes desafios, propomos o Plan-X, uma estrutura que aplica explicitamente planeamento semântico de alto nível para instruir o processo de geração de vídeo. No seu núcleo encontra-se um Planeador Semântico, um modelo de linguagem multimodal treinável que raciocina sobre a intenção do utilizador a partir de prompts de texto e contexto visual, e gera autoregressivamente uma sequência de tokens semânticos espaço-temporais ancorados em texto. Estes tokens semânticos, complementares à orientação de alto nível do prompt de texto, servem como "esboços semânticos" estruturados ao longo do tempo para o modelo de difusão de vídeo, que tem a sua força na síntese de detalhes visuais de alta fidelidade. O Plan-X integra efetivamente a força dos modelos de linguagem no raciocínio e planeamento multimodal em contexto, juntamente com a força dos modelos de difusão na síntese de vídeo fotorrealista. Experimentos extensivos demonstram que a nossa estrutura reduz substancialmente as alucinações visuais e permite uma geração de vídeo refinada e alinhada com instruções, consistente com o contexto multimodal.

English

Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.

Plan-X: Geração de Vídeo Instrucional por meio de Planeamento Semântico

Plan-X: Instruct Video Generation via Semantic Planning

Resumo

Support