Prompt Relay: Temporele Controle tijdens Inferentie voor Multi-Event Videogeneratie

Samenvatting

Videodiffusiemodellen hebben aanzienlijke vooruitgang geboekt in het genereren van hoogwaardige video's. Deze modellen hebben echter moeite met het weergeven van de temporele opeenvolging van meerdere gebeurtenissen in real-world video's en missen expliciete mechanismen om te controleren wanneer semantische concepten verschijnen, hoe lang ze aanhouden en de volgorde waarin meerdere gebeurtenissen plaatsvinden. Een dergelijke controle is vooral belangrijk voor filmspecificatie video-synthese, waarbij coherente verhaalvertelling afhangt van precieze timing, duur en overgangen tussen gebeurtenissen. Wanneer een enkele alinea-stijl prompt wordt gebruikt om een reeks complexe gebeurtenissen te beschrijven, vertonen modellen vaak semantische vervlechting, waarbij concepten bedoeld voor verschillende momenten in de video in elkaar overlopen, wat resulteert in een slechte tekst-video-alignering. Om deze beperkingen aan te pakken, stellen wij Prompt Relay voor, een plug-and-play methode tijdens inferentie om fijnmazige temporele controle mogelijk te maken bij het genereren van video's met meerdere gebeurtenissen, zonder architecturale wijzigingen of extra rekenkosten. Prompt Relay introduceert een penalty in het cross-attention mechanisme, zodat elk temporeel segment alleen aandacht besteedt aan zijn toegewezen prompt. Hierdoor kan het model één semantisch concept per keer representeren, wat de temporele prompt-alignering verbetert, semantische interferentie vermindert en de visuele kwaliteit verhoogt.

English

Video diffusion models have achieved remarkable progress in generating high-quality videos. However, these models struggle to represent the temporal succession of multiple events in real-world videos and lack explicit mechanisms to control when semantic concepts appear, how long they persist, and the order in which multiple events occur. Such control is especially important for movie-grade video synthesis, where coherent storytelling depends on precise timing, duration, and transitions between events. When using a single paragraph-style prompt to describe a sequence of complex events, models often exhibit semantic entanglement, where concepts intended for different moments in the video bleed into one another, resulting in poor text-video alignment. To address these limitations, we propose Prompt Relay, an inference-time, plug-and-play method to enable fine-grained temporal control in multi-event video generation, requiring no architectural modifications and no additional computational overhead. Prompt Relay introduces a penalty into the cross-attention mechanism, so that each temporal segment attends only to its assigned prompt, allowing the model to represent one semantic concept at a time and thereby improving temporal prompt alignment, reducing semantic interference, and enhancing visual quality.

Prompt Relay: Temporele Controle tijdens Inferentie voor Multi-Event Videogeneratie

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

Samenvatting

Support