Atenção ao Tempo: Geração de Vídeo Multi-Evento Controlada Temporalmente
Mind the Time: Temporally-Controlled Multi-Event Video Generation
December 6, 2024
Autores: Ziyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov
cs.AI
Resumo
Vídeos do mundo real consistem em sequências de eventos. Gerar tais sequências com controle temporal preciso é inviável com os geradores de vídeo existentes que dependem de um único parágrafo de texto como entrada. Quando encarregados de gerar múltiplos eventos descritos usando um único prompt, tais métodos frequentemente ignoram alguns dos eventos ou falham em organizá-los na ordem correta. Para lidar com essa limitação, apresentamos MinT, um gerador de vídeo multi-eventos com controle temporal. Nosso insight chave é vincular cada evento a um período específico no vídeo gerado, o que permite ao modelo focar em um evento de cada vez. Para possibilitar interações conscientes do tempo entre legendas de eventos e tokens de vídeo, projetamos um método de codificação posicional baseado no tempo, chamado ReRoPE. Essa codificação ajuda a guiar a operação de atenção cruzada. Ao ajustar finamente um transformador de difusão de vídeo pré-treinado em dados temporalmente ancorados, nossa abordagem produz vídeos coerentes com eventos conectados de forma suave. Pela primeira vez na literatura, nosso modelo oferece controle sobre o timing de eventos em vídeos gerados. Experimentos extensivos demonstram que MinT supera significativamente os modelos de código aberto existentes.
English
Real-world videos consist of sequences of events. Generating such sequences
with precise temporal control is infeasible with existing video generators that
rely on a single paragraph of text as input. When tasked with generating
multiple events described using a single prompt, such methods often ignore some
of the events or fail to arrange them in the correct order. To address this
limitation, we present MinT, a multi-event video generator with temporal
control. Our key insight is to bind each event to a specific period in the
generated video, which allows the model to focus on one event at a time. To
enable time-aware interactions between event captions and video tokens, we
design a time-based positional encoding method, dubbed ReRoPE. This encoding
helps to guide the cross-attention operation. By fine-tuning a pre-trained
video diffusion transformer on temporally grounded data, our approach produces
coherent videos with smoothly connected events. For the first time in the
literature, our model offers control over the timing of events in generated
videos. Extensive experiments demonstrate that MinT outperforms existing
open-source models by a large margin.Summary
AI-Generated Summary