Relais d'Invites : Contrôle Temporel en Temps d'Inférence pour la Génération Vidéo Multi-Événements
Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation
April 11, 2026
Auteurs: Gordon Chen, Ziqi Huang, Ziwei Liu
cs.AI
Résumé
Les modèles de diffusion vidéo ont réalisé des progrès remarquables dans la génération de vidéos de haute qualité. Cependant, ces modèles peinent à représenter la succession temporelle de multiples événements dans les vidéos du monde réel et manquent de mécanismes explicites pour contrôler quand les concepts sémantiques apparaissent, combien de temps ils persistent, et l'ordre dans lequel les événements multiples se produisent. Un tel contrôle est particulièrement important pour la synthèse de vidéos de qualité cinématographique, où la cohérence narrative dépend du timing précis, de la durée et des transitions entre les événements. Lorsqu'une seule invite de type paragraphe est utilisée pour décrire une séquence d'événements complexes, les modèles présentent souvent un enchevêtrement sémantique, où les concepts destinés à différents moments de la vidéo fusionnent les uns avec les autres, entraînant une mauvaise alignement texte-vidéo. Pour résoudre ces limitations, nous proposons Prompt Relay, une méthode plug-and-play utilisable lors de l'inférence, qui permet un contrôle temporel fin dans la génération vidéo multi-événements, sans nécessiter de modifications architecturales ni de surcharge computationnelle supplémentaire. Prompt Relay introduit une pénalité dans le mécanisme d'attention croisée, de sorte que chaque segment temporel ne prête attention qu'à l'invite qui lui est assignée, permettant au modèle de représenter un concept sémantique à la fois, améliorant ainsi l'alignement temporel des invites, réduisant les interférences sémantiques et rehaussant la qualité visuelle.
English
Video diffusion models have achieved remarkable progress in generating high-quality videos. However, these models struggle to represent the temporal succession of multiple events in real-world videos and lack explicit mechanisms to control when semantic concepts appear, how long they persist, and the order in which multiple events occur. Such control is especially important for movie-grade video synthesis, where coherent storytelling depends on precise timing, duration, and transitions between events. When using a single paragraph-style prompt to describe a sequence of complex events, models often exhibit semantic entanglement, where concepts intended for different moments in the video bleed into one another, resulting in poor text-video alignment. To address these limitations, we propose Prompt Relay, an inference-time, plug-and-play method to enable fine-grained temporal control in multi-event video generation, requiring no architectural modifications and no additional computational overhead. Prompt Relay introduces a penalty into the cross-attention mechanism, so that each temporal segment attends only to its assigned prompt, allowing the model to represent one semantic concept at a time and thereby improving temporal prompt alignment, reducing semantic interference, and enhancing visual quality.