Plan-X: Generación de Vídeo Instruccional mediante Planificación Semántica
Plan-X: Instruct Video Generation via Semantic Planning
November 22, 2025
Autores: Lun Huang, You Xie, Hongyi Xu, Tianpei Gu, Chenxu Zhang, Guoxian Song, Zenan Li, Xiaochen Zhao, Linjie Luo, Guillermo Sapiro
cs.AI
Resumen
Los Transformadores de Difusión han demostrado capacidades notables en síntesis visual, pero a menudo presentan dificultades en el razonamiento semántico de alto nivel y la planificación de largo alcance. Esta limitación frecuentemente genera alucinaciones visuales y desalineaciones con las instrucciones del usuario, especialmente en escenarios que involucran comprensión de escenas complejas, interacciones humano-objeto, acciones multi-etapa y razonamiento de movimiento en contexto. Para abordar estos desafíos, proponemos Plan-X, un marco que aplica explícitamente planificación semántica de alto nivel para guiar el proceso de generación de videos. En su núcleo se encuentra un Planificador Semántico, un modelo de lenguaje multimodal entrenable que razona sobre la intención del usuario a partir de indicaciones de texto y contexto visual, y genera autoregresivamente una secuencia de tokens semánticos espacio-temporales anclados en texto. Estos tokens semánticos, complementarios a la guía de alto nivel del texto, sirven como "bocetos semánticos" estructurados a lo largo del tiempo para el modelo de difusión de video, que posee fortalezas en sintetizar detalles visuales de alta fidelidad. Plan-X integra efectivamente la capacidad de los modelos de lenguaje en razonamiento y planificación multimodal en contexto, junto con la capacidad de los modelos de difusión en síntesis de video fotorrealista. Experimentos exhaustivos demuestran que nuestro marco reduce sustancialmente las alucinaciones visuales y permite una generación de video de grano fino, alineada con las instrucciones y consistente con el contexto multimodal.
English
Diffusion Transformers have demonstrated remarkable capabilities in visual synthesis, yet they often struggle with high-level semantic reasoning and long-horizon planning. This limitation frequently leads to visual hallucinations and mis-alignments with user instructions, especially in scenarios involving complex scene understanding, human-object interactions, multi-stage actions, and in-context motion reasoning. To address these challenges, we propose Plan-X, a framework that explicitly enforces high-level semantic planning to instruct video generation process. At its core lies a Semantic Planner, a learnable multimodal language model that reasons over the user's intent from both text prompts and visual context, and autoregressively generates a sequence of text-grounded spatio-temporal semantic tokens. These semantic tokens, complementary to high-level text prompt guidance, serve as structured "semantic sketches" over time for the video diffusion model, which has its strength at synthesizing high-fidelity visual details. Plan-X effectively integrates the strength of language models in multimodal in-context reasoning and planning, together with the strength of diffusion models in photorealistic video synthesis. Extensive experiments demonstrate that our framework substantially reduces visual hallucinations and enables fine-grained, instruction-aligned video generation consistent with multimodal context.