Atención al Tiempo: Generación de Video Multi-Evento Controlada Temporalmente
Mind the Time: Temporally-Controlled Multi-Event Video Generation
December 6, 2024
Autores: Ziyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov
cs.AI
Resumen
Los videos del mundo real consisten en secuencias de eventos. Generar tales secuencias con un control temporal preciso es inalcanzable con los generadores de video existentes que se basan en un único párrafo de texto como entrada. Cuando se les asigna la tarea de generar múltiples eventos descritos mediante una única indicación, dichos métodos a menudo ignoran algunos de los eventos o no logran organizarlos en el orden correcto. Para abordar esta limitación, presentamos MinT, un generador de video multi-evento con control temporal. Nuestra idea clave es vincular cada evento a un período específico en el video generado, lo que permite que el modelo se centre en un evento a la vez. Para habilitar interacciones conscientes del tiempo entre las leyendas de eventos y los tokens de video, diseñamos un método de codificación posicional basado en el tiempo, denominado ReRoPE. Esta codificación ayuda a guiar la operación de atención cruzada. Al ajustar finamente un transformador de difusión de video pre-entrenado en datos temporalmente fundamentados, nuestro enfoque produce videos coherentes con eventos conectados de forma fluida. Por primera vez en la literatura, nuestro modelo ofrece control sobre el momento de los eventos en los videos generados. Experimentos extensos demuestran que MinT supera ampliamente a los modelos de código abierto existentes.
English
Real-world videos consist of sequences of events. Generating such sequences
with precise temporal control is infeasible with existing video generators that
rely on a single paragraph of text as input. When tasked with generating
multiple events described using a single prompt, such methods often ignore some
of the events or fail to arrange them in the correct order. To address this
limitation, we present MinT, a multi-event video generator with temporal
control. Our key insight is to bind each event to a specific period in the
generated video, which allows the model to focus on one event at a time. To
enable time-aware interactions between event captions and video tokens, we
design a time-based positional encoding method, dubbed ReRoPE. This encoding
helps to guide the cross-attention operation. By fine-tuning a pre-trained
video diffusion transformer on temporally grounded data, our approach produces
coherent videos with smoothly connected events. For the first time in the
literature, our model offers control over the timing of events in generated
videos. Extensive experiments demonstrate that MinT outperforms existing
open-source models by a large margin.Summary
AI-Generated Summary