ChatPaper.aiChatPaper

프롬프트 릴레이: 다중 이벤트 비디오 생성을 위한 추론 시점 시간적 제어

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

April 11, 2026
저자: Gordon Chen, Ziqi Huang, Ziwei Liu
cs.AI

초록

비디오 확산 모델은 고품질 비디오 생성에서 뛰어난 진전을 이루었습니다. 그러나 이러한 모델은 실제 비디오에서 발생하는 다중 이벤트의 시간적 연속성을 표현하는 데 어려움을 겪으며, 의미론적 개념이 언제 나타나고 얼마나 지속되며 여러 이벤트가 어떤 순서로 발생하는지를 명시적으로 제어하는 메커니즘을 갖추지 못하고 있습니다. 이러한 제어는 특히 무비급 비디오 합성에서 중요한데, 일관된 스토리텔링이 이벤트 간의 정확한 타이밍, 지속 시간, 전환에 의존하기 때문입니다. 복잡한 이벤트 시퀀스를 설명하기 위해 단일 문단 형식의 프롬프트를 사용할 때, 모델은 종종 의미론적 뒤엉힘을 보여주는데, 이는 비디오의 서로 다른 순간을 위한 개념들이 서로 뒤섞여 텍스트-비디오 정렬이 제대로 이루어지지 않는 결과를 초래합니다. 이러한 한계를 해결하기 위해 우리는 프롬프트 릴레이를 제안합니다. 이는 추론 시점에 적용 가능한 플러그 앤 플레이 방식으로, 아키텍처 수정이나 추가적인 계산 오버헤드 없이 다중 이벤트 비디오 생성에서 세밀한 시간적 제어를 가능하게 합니다. 프롬프트 릴레이는 크로스-어텐션 메커니즘에 페널티를 도입하여 각 시간 세그먼트가 할당된 프롬프트에만 주의를 기울이도록 함으로써, 모델이 한 번에 하나의 의미론적 개념만을 표현하게 합니다. 이를 통해 시간적 프롬프트 정렬을 개선하고 의미론적 간섭을 줄이며 시각적 품질을 향상시킵니다.
English
Video diffusion models have achieved remarkable progress in generating high-quality videos. However, these models struggle to represent the temporal succession of multiple events in real-world videos and lack explicit mechanisms to control when semantic concepts appear, how long they persist, and the order in which multiple events occur. Such control is especially important for movie-grade video synthesis, where coherent storytelling depends on precise timing, duration, and transitions between events. When using a single paragraph-style prompt to describe a sequence of complex events, models often exhibit semantic entanglement, where concepts intended for different moments in the video bleed into one another, resulting in poor text-video alignment. To address these limitations, we propose Prompt Relay, an inference-time, plug-and-play method to enable fine-grained temporal control in multi-event video generation, requiring no architectural modifications and no additional computational overhead. Prompt Relay introduces a penalty into the cross-attention mechanism, so that each temporal segment attends only to its assigned prompt, allowing the model to represent one semantic concept at a time and thereby improving temporal prompt alignment, reducing semantic interference, and enhancing visual quality.
PDF111April 15, 2026