Retransmissão de Prompt: Controle Temporal em Tempo de Inferência para Geração de Vídeo com Múltiplos Eventos

Resumo

Os modelos de difusão de vídeo alcançaram progressos notáveis na geração de vídeos de alta qualidade. No entanto, esses modelos têm dificuldade em representar a sucessão temporal de múltiplos eventos em vídeos do mundo real e carecem de mecanismos explícitos para controlar quando os conceitos semânticos aparecem, quanto tempo persistem e a ordem em que múltiplos eventos ocorrem. Esse controle é especialmente importante para a síntese de vídeos de nível cinematográfico, onde a narrativa coerente depende do timing preciso, da duração e das transições entre eventos. Ao usar um único prompt em estilo de parágrafo para descrever uma sequência de eventos complexos, os modelos frequentemente exibem emaranhamento semântico, onde conceitos destinados a diferentes momentos do vídeo se misturam, resultando em um alinhamento texto-vídeo deficiente. Para superar essas limitações, propomos o Prompt Relay, um método plug-and-play aplicado durante a inferência para permitir controle temporal de granularidade fina na geração de vídeos com múltiplos eventos, sem exigir modificações arquiteturais nem sobrecarga computacional adicional. O Prompt Relay introduz uma penalidade no mecanismo de atenção cruzada, de modo que cada segmento temporal atenda apenas ao prompt atribuído, permitindo que o modelo represente um conceito semântico por vez, melhorando assim o alinhamento temporal com os prompts, reduzindo a interferência semântica e aprimorando a qualidade visual.

English

Video diffusion models have achieved remarkable progress in generating high-quality videos. However, these models struggle to represent the temporal succession of multiple events in real-world videos and lack explicit mechanisms to control when semantic concepts appear, how long they persist, and the order in which multiple events occur. Such control is especially important for movie-grade video synthesis, where coherent storytelling depends on precise timing, duration, and transitions between events. When using a single paragraph-style prompt to describe a sequence of complex events, models often exhibit semantic entanglement, where concepts intended for different moments in the video bleed into one another, resulting in poor text-video alignment. To address these limitations, we propose Prompt Relay, an inference-time, plug-and-play method to enable fine-grained temporal control in multi-event video generation, requiring no architectural modifications and no additional computational overhead. Prompt Relay introduces a penalty into the cross-attention mechanism, so that each temporal segment attends only to its assigned prompt, allowing the model to represent one semantic concept at a time and thereby improving temporal prompt alignment, reducing semantic interference, and enhancing visual quality.

Retransmissão de Prompt: Controle Temporal em Tempo de Inferência para Geração de Vídeo com Múltiplos Eventos

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

Resumo

Support