Bernini: Planificación Semántica Latente para la Difusión de Video

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs) y los modelos de difusión han alcanzado cada uno una madurez notable: los MLLMs sobresalen en el razonamiento sobre entradas multimodales heterogéneas con un sólido anclaje semántico, mientras que los modelos de difusión sintetizan imágenes y videos con un realismo fotográfico. Sostenemos que estas dos familias pueden unificarse mediante una simple división de tareas: los MLLMs realizan la planificación semántica, mientras que los modelos de difusión generan píxeles a partir de guías semánticas de alto nivel y características visuales de bajo nivel. Basándonos en esta idea, proponemos Bernini, un marco unificado para la generación y edición de videos. Un planificador basado en MLLM predice la representación semántica objetivo directamente en el espacio de incrustación de ViT, y un renderizador basado en DiT sintetiza píxeles condicionados por este plan, aumentado con características textuales y, para la edición, características de la VAE fuente para preservar los detalles. Dado que la semántica actúa como interfaz, el planificador y el renderizador pueden entrenarse por separado y solo someterse a un co-entrenamiento ligero, preservando las fortalezas preentrenadas de ambos componentes mientras se mantiene la eficiencia del entrenamiento. Para manejar mejor múltiples entradas visuales, introducimos el Segment-Aware 3D Rotary Positional Embedding (SA-3D RoPE), e incorporamos además el razonamiento de cadena de pensamiento en el planificador para transferir mejor la comprensión a la generación. Bernini logra un rendimiento de vanguardia en una amplia gama de puntos de referencia de generación y edición de videos, con la comprensión preentrenada del MLLM traduciéndose en una sólida generalización en tareas de edición desafiantes.

English

Multimodal large language models (MLLMs) and diffusion models have each reached remarkable maturity: MLLMs excel at reasoning over heterogeneous multimodal inputs with strong semantic grounding, while diffusion models synthesize images and videos with photorealistic fidelity. We argue that these two families can be unified through a simple division of labor: MLLMs perform semantic planning, while diffusion models render pixels from high-level semantic guidance and low-level visual features. Building on this idea, we propose Bernini, a unified framework for video generation and editing. An MLLM-based planner predicts the target semantic representation directly in the ViT embedding space, and a DiT-based renderer synthesizes pixels conditioned on this plan, augmented by text features and, for editing, source VAE features for detail preservation. Because semantics serve as the interface, the planner and renderer can be trained separately and only lightly co-trained, preserving the pretrained strengths of both components while keeping training efficient. To better handle multiple visual inputs, we introduce Segment-Aware 3D Rotary Positional Embedding (SA-3D RoPE), and further incorporate chain-of-thought reasoning in the planner to better transfer understanding into generation. Bernini achieves state-of-the-art performance across a wide range of video generation and editing benchmarks, with the MLLM's pretrained understanding translating into strong generalization on challenging editing tasks.