プロンプトリレー:マルチイベント動画生成のための推論時時間制御
Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation
April 11, 2026
著者: Gordon Chen, Ziqi Huang, Ziwei Liu
cs.AI
要旨
ビデオ拡散モデルは高品質な動画生成において顕著な進歩を遂げています。しかし、現実世界の動画に存在する複数のイベントの時間的連続性を表現することが困難で、意味概念がいつ出現し、どの程度持続し、複数のイベントがどの順序で発生するかを制御する明示的なメカニズムを欠いています。このような制御は、一貫したストーリーテリングがイベント間の精密なタイミング・持続時間・遷移に依存する映画級の動画合成において特に重要です。複雑なイベント連鎖を単一の段落形式のプロンプトで記述すると、モデルはしばしば意味的絡み合い(異なる時間帯に意図された概念が互いに混ざり合う現象)を示し、テキストと動画の整合性が低下します。これらの課題を解決するため、我々は推論時に適用可能なプラグアンドプレイ方式の「Prompt Relay」を提案します。この手法は、アーキテクチャ変更や追加の計算コストを必要とせず、マルチイベント動画生成において微細な時間制御を実現します。Prompt Relayはクロスアテンション機構にペナルティを導入し、各時間セグメントが割り当てられたプロンプトのみに注意を向けるようにすることで、モデルが一度に一つの意味概念を表現できるようにし、時間的プロンプト整合性の向上、意味的干渉の低減、視覚的品質の強化を図ります。
English
Video diffusion models have achieved remarkable progress in generating high-quality videos. However, these models struggle to represent the temporal succession of multiple events in real-world videos and lack explicit mechanisms to control when semantic concepts appear, how long they persist, and the order in which multiple events occur. Such control is especially important for movie-grade video synthesis, where coherent storytelling depends on precise timing, duration, and transitions between events. When using a single paragraph-style prompt to describe a sequence of complex events, models often exhibit semantic entanglement, where concepts intended for different moments in the video bleed into one another, resulting in poor text-video alignment. To address these limitations, we propose Prompt Relay, an inference-time, plug-and-play method to enable fine-grained temporal control in multi-event video generation, requiring no architectural modifications and no additional computational overhead. Prompt Relay introduces a penalty into the cross-attention mechanism, so that each temporal segment attends only to its assigned prompt, allowing the model to represent one semantic concept at a time and thereby improving temporal prompt alignment, reducing semantic interference, and enhancing visual quality.