Relé de Indicaciones: Control Temporal en Tiempo de Inferencia para la Generación de Videos de Múltiples Eventos

Resumen

Los modelos de difusión de video han logrado avances notables en la generación de videos de alta calidad. Sin embargo, estos modelos tienen dificultades para representar la sucesión temporal de múltiples eventos en videos del mundo real y carecen de mecanismos explícitos para controlar cuándo aparecen los conceptos semánticos, cuánto tiempo persisten y el orden en que ocurren múltiples eventos. Dicho control es especialmente importante para la síntesis de video de calidad cinematográfica, donde la narración coherente depende de la sincronización precisa, la duración y las transiciones entre eventos. Al utilizar un único párrafo de texto para describir una secuencia de eventos complejos, los modelos suelen exhibir un entrelazamiento semántico, donde conceptos destinados a diferentes momentos del video se mezclan entre sí, lo que resulta en una pobre alineación texto-video. Para abordar estas limitaciones, proponemos Prompt Relay, un método plug-and-play aplicable durante la inferencia que permite un control temporal de grano fino en la generación de video multi-evento, sin requerir modificaciones arquitectónicas ni sobrecarga computacional adicional. Prompt Relay introduce una penalización en el mecanismo de atención cruzada, de modo que cada segmento temporal atiende únicamente a su prompt asignado, permitiendo al modelo representar un concepto semántico a la vez y mejorando así la alineación temporal con los prompts, reduciendo la interferencia semántica y mejorando la calidad visual.

English

Video diffusion models have achieved remarkable progress in generating high-quality videos. However, these models struggle to represent the temporal succession of multiple events in real-world videos and lack explicit mechanisms to control when semantic concepts appear, how long they persist, and the order in which multiple events occur. Such control is especially important for movie-grade video synthesis, where coherent storytelling depends on precise timing, duration, and transitions between events. When using a single paragraph-style prompt to describe a sequence of complex events, models often exhibit semantic entanglement, where concepts intended for different moments in the video bleed into one another, resulting in poor text-video alignment. To address these limitations, we propose Prompt Relay, an inference-time, plug-and-play method to enable fine-grained temporal control in multi-event video generation, requiring no architectural modifications and no additional computational overhead. Prompt Relay introduces a penalty into the cross-attention mechanism, so that each temporal segment attends only to its assigned prompt, allowing the model to represent one semantic concept at a time and thereby improving temporal prompt alignment, reducing semantic interference, and enhancing visual quality.

Relé de Indicaciones: Control Temporal en Tiempo de Inferencia para la Generación de Videos de Múltiples Eventos

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

Resumen

Support