Relè di Prompt: Controllo Temporale al Momento dell'Inferenza per la Generazione di Video con Eventi Multipli

Abstract

I modelli di diffusione video hanno ottenuto progressi notevoli nella generazione di video di alta qualità. Tuttavia, questi modelli faticano a rappresentare la successione temporale di eventi multipli nei video del mondo reale e mancano di meccanismi espliciti per controllare quando compaiono i concetti semantici, quanto a lungo persistono e l'ordine in cui si verificano eventi multipli. Questo controllo è particolarmente importante per la sintesi video di livello cinematografico, dove una narrazione coerente dipende dalla temporizzazione precisa, dalla durata e dalle transizioni tra gli eventi. Quando si utilizza un singolo prompt in stile paragrafo per descrivere una sequenza di eventi complessi, i modelli spesso presentano un entanglement semantico, in cui concetti destinati a momenti diversi nel video si mescolano tra loro, risultando in un allineamento testo-video scadente. Per affrontare queste limitazioni, proponiamo Prompt Relay, un metodo plug-and-play, utilizzabile al momento dell'inferenza, per abilitare un controllo temporale granulare nella generazione di video multi-evento, senza richiedere modifiche architetturali né sovraccarichi computazionali aggiuntivi. Prompt Relay introduce una penalizzazione nel meccanismo di cross-attention, in modo che ogni segmento temporale si concentri solo sul prompt a esso assegnato, consentendo al modello di rappresentare un concetto semantico alla volta e migliorando così l'allineamento temporale al prompt, riducendo l'interferenza semantica e migliorando la qualità visiva.

English

Video diffusion models have achieved remarkable progress in generating high-quality videos. However, these models struggle to represent the temporal succession of multiple events in real-world videos and lack explicit mechanisms to control when semantic concepts appear, how long they persist, and the order in which multiple events occur. Such control is especially important for movie-grade video synthesis, where coherent storytelling depends on precise timing, duration, and transitions between events. When using a single paragraph-style prompt to describe a sequence of complex events, models often exhibit semantic entanglement, where concepts intended for different moments in the video bleed into one another, resulting in poor text-video alignment. To address these limitations, we propose Prompt Relay, an inference-time, plug-and-play method to enable fine-grained temporal control in multi-event video generation, requiring no architectural modifications and no additional computational overhead. Prompt Relay introduces a penalty into the cross-attention mechanism, so that each temporal segment attends only to its assigned prompt, allowing the model to represent one semantic concept at a time and thereby improving temporal prompt alignment, reducing semantic interference, and enhancing visual quality.

Relè di Prompt: Controllo Temporale al Momento dell'Inferenza per la Generazione di Video con Eventi Multipli

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

Abstract

Support