Промпт-ретрансляция: Временной контроль на этапе вывода для генерации видео с множественными событиями

Аннотация

Видеодиффузионные модели достигли значительного прогресса в генерации высококачественных видео. Однако эти модели испытывают трудности с отображением временной последовательности множества событий в реальных видеороликах и не имеют явных механизмов контроля над моментом появления семантических концепций, продолжительностью их существования и порядком следования событий. Такой контроль особенно важен для создания видео кинематографического уровня, где связность повествования зависит от точного временно́го планирования, длительности и переходов между событиями. При использовании единого текстового промпта в формате абзаца для описания последовательности сложных событий модели часто демонстрируют семантическое переплетение, когда концепции, предназначенные для разных моментов видео, смешиваются друг с другом, что приводит к слабому соответствию текста и видео. Для преодоления этих ограничений мы предлагаем Prompt Relay — подключаемый метод, работающий на этапе вывода, который обеспечивает детальный временно́й контроль при генерации видео с множеством событий, не требуя модификации архитектуры и не создавая дополнительных вычислительных затрат. Prompt Relay вводит штраф в механизм кросс-внимания, так что каждый временно́й сегмент обращает внимание только на назначенный ему промпт, позволяя модели представлять одну семантическую концепцию за раз, тем самым улучшая временное соответствие промптам, снижая семантические помехи и повышая визуальное качество.

English

Video diffusion models have achieved remarkable progress in generating high-quality videos. However, these models struggle to represent the temporal succession of multiple events in real-world videos and lack explicit mechanisms to control when semantic concepts appear, how long they persist, and the order in which multiple events occur. Such control is especially important for movie-grade video synthesis, where coherent storytelling depends on precise timing, duration, and transitions between events. When using a single paragraph-style prompt to describe a sequence of complex events, models often exhibit semantic entanglement, where concepts intended for different moments in the video bleed into one another, resulting in poor text-video alignment. To address these limitations, we propose Prompt Relay, an inference-time, plug-and-play method to enable fine-grained temporal control in multi-event video generation, requiring no architectural modifications and no additional computational overhead. Prompt Relay introduces a penalty into the cross-attention mechanism, so that each temporal segment attends only to its assigned prompt, allowing the model to represent one semantic concept at a time and thereby improving temporal prompt alignment, reducing semantic interference, and enhancing visual quality.

Промпт-ретрансляция: Временной контроль на этапе вывода для генерации видео с множественными событиями

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

Аннотация

Support