Учитывайте время: Генерация видео с множеством событий, контролируемая временем
Mind the Time: Temporally-Controlled Multi-Event Video Generation
December 6, 2024
Авторы: Ziyi Wu, Aliaksandr Siarohin, Willi Menapace, Ivan Skorokhodov, Yuwei Fang, Varnith Chordia, Igor Gilitschenski, Sergey Tulyakov
cs.AI
Аннотация
Видеоролики реального мира состоят из последовательностей событий. Генерация таких последовательностей с точным временным контролем невозможна с использованием существующих видеогенераторов, которые полагаются на один параграф текста в качестве входных данных. При попытке генерации нескольких событий, описанных в одном запросе, такие методы часто игнорируют некоторые события или не удается правильно упорядочить их. Для решения этого ограничения мы представляем MinT, мульти-событийный видеогенератор с временным контролем. Наш ключевой инсайт заключается в привязке каждого события к конкретному периоду в созданном видео, что позволяет модели фокусироваться на одном событии за раз. Для обеспечения взаимодействия между описаниями событий и токенами видео, основанным на времени, мы разработали метод кодирования позиций на основе времени, названный ReRoPE. Это кодирование помогает направлять операцию кросс-внимания. Путем донастройки предварительно обученного видео-трансформера диффузии на временно обоснованных данных наш подход создает согласованные видеоролики с плавно переходящими событиями. Впервые в литературе наша модель предлагает контроль над временем событий в созданных видеороликах. Обширные эксперименты показывают, что MinT превосходит существующие модели с открытым исходным кодом с большим отрывом.
English
Real-world videos consist of sequences of events. Generating such sequences
with precise temporal control is infeasible with existing video generators that
rely on a single paragraph of text as input. When tasked with generating
multiple events described using a single prompt, such methods often ignore some
of the events or fail to arrange them in the correct order. To address this
limitation, we present MinT, a multi-event video generator with temporal
control. Our key insight is to bind each event to a specific period in the
generated video, which allows the model to focus on one event at a time. To
enable time-aware interactions between event captions and video tokens, we
design a time-based positional encoding method, dubbed ReRoPE. This encoding
helps to guide the cross-attention operation. By fine-tuning a pre-trained
video diffusion transformer on temporally grounded data, our approach produces
coherent videos with smoothly connected events. For the first time in the
literature, our model offers control over the timing of events in generated
videos. Extensive experiments demonstrate that MinT outperforms existing
open-source models by a large margin.Summary
AI-Generated Summary