Prompt-Relay: Zeitliche Steuerung zur Inferenzzeit für Multi-Ereignis-Videogenerierung
Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation
April 11, 2026
Autoren: Gordon Chen, Ziqi Huang, Ziwei Liu
cs.AI
Zusammenfassung
Videodiffusionsmodelle haben bemerkenswerte Fortschritte bei der Erzeugung hochwertiger Videos erzielt. Allerdings haben diese Modelle Schwierigkeiten, die zeitliche Abfolge mehrerer Ereignisse in realen Videos darzustellen, und es fehlen ihnen explizite Mechanismen, um zu steuern, wann semantische Konzepte erscheinen, wie lange sie bestehen bleiben und in welcher Reihenfolge mehrere Ereignisse auftreten. Eine solche Steuerung ist besonders wichtig für die filmsynthese auf Kinoniveau, bei der eine kohärente Erzählung von präziser Timing, Dauer und Übergängen zwischen Ereignissen abhängt. Wenn eine einzelne, absatzartige Eingabeaufforderung verwendet wird, um eine Abfolge komplexer Ereignisse zu beschreiben, zeigen Modelle oft semantische Vermischung, bei der für verschiedene Zeitpunkte im Video vorgesehene Konzepte ineinander übergehen, was zu einer schlechten Text-Video-Abstimmung führt. Um diese Einschränkungen zu adressieren, schlagen wir Prompt Relay vor, eine Plug-and-Play-Methode zur Inferenzzeit, die eine fein granulare zeitliche Steuerung bei der Videogenerierung mit mehreren Ereignissen ermöglicht, ohne Architekturänderungen oder zusätzlichen Rechenaufwand zu erfordern. Prompt Relay führt eine Strafe in den Cross-Attention-Mechanismus ein, sodass jedes zeitliche Segment nur seiner zugewiesenen Eingabeaufforderung Aufmerksamkeit schenkt. Dies ermöglicht es dem Modell, jeweils ein semantisches Konzept darzustellen, wodurch die zeitliche Eingabeabstimmung verbessert, semantische Interferenzen reduziert und die visuelle Qualität gesteigert wird.
English
Video diffusion models have achieved remarkable progress in generating high-quality videos. However, these models struggle to represent the temporal succession of multiple events in real-world videos and lack explicit mechanisms to control when semantic concepts appear, how long they persist, and the order in which multiple events occur. Such control is especially important for movie-grade video synthesis, where coherent storytelling depends on precise timing, duration, and transitions between events. When using a single paragraph-style prompt to describe a sequence of complex events, models often exhibit semantic entanglement, where concepts intended for different moments in the video bleed into one another, resulting in poor text-video alignment. To address these limitations, we propose Prompt Relay, an inference-time, plug-and-play method to enable fine-grained temporal control in multi-event video generation, requiring no architectural modifications and no additional computational overhead. Prompt Relay introduces a penalty into the cross-attention mechanism, so that each temporal segment attends only to its assigned prompt, allowing the model to represent one semantic concept at a time and thereby improving temporal prompt alignment, reducing semantic interference, and enhancing visual quality.