Генерация одноминутного видео с обучением во время тестирования

Аннотация

Сегодня трансформеры по-прежнему испытывают трудности с генерацией минутных видео, поскольку слои самовнимания неэффективны для длинных контекстов. Альтернативы, такие как слои Mamba, плохо справляются со сложными многоплановыми историями из-за менее выразительных скрытых состояний. Мы экспериментируем со слоями обучения на этапе тестирования (Test-Time Training, TTT), чьи скрытые состояния сами могут быть нейронными сетями, что делает их более выразительными. Добавление слоев TTT в предварительно обученный трансформер позволяет ему генерировать минутные видео на основе текстовых раскадровок. В качестве доказательства концепции мы создали набор данных на основе мультфильмов "Том и Джерри". По сравнению с базовыми методами, такими как Mamba~2, Gated DeltaNet и слоями скользящего внимания, слои TTT генерируют гораздо более связные видео, рассказывающие сложные истории, опережая их на 34 балла Elo в человеческой оценке 100 видео для каждого метода. Хотя результаты обнадеживают, они все еще содержат артефакты, вероятно, из-за ограниченных возможностей предварительно обученной модели на 5 миллиардов параметров. Эффективность нашей реализации также может быть улучшена. Мы экспериментировали только с минутными видео из-за ограниченных ресурсов, но подход можно расширить на более длинные видео и более сложные истории. Примеры видео, код и аннотации доступны по адресу: https://test-time-training.github.io/video-dit.

English

Transformers today still struggle to generate one-minute videos because self-attention layers are inefficient for long context. Alternatives such as Mamba layers struggle with complex multi-scene stories because their hidden states are less expressive. We experiment with Test-Time Training (TTT) layers, whose hidden states themselves can be neural networks, therefore more expressive. Adding TTT layers into a pre-trained Transformer enables it to generate one-minute videos from text storyboards. For proof of concept, we curate a dataset based on Tom and Jerry cartoons. Compared to baselines such as Mamba~2, Gated DeltaNet, and sliding-window attention layers, TTT layers generate much more coherent videos that tell complex stories, leading by 34 Elo points in a human evaluation of 100 videos per method. Although promising, results still contain artifacts, likely due to the limited capability of the pre-trained 5B model. The efficiency of our implementation can also be improved. We have only experimented with one-minute videos due to resource constraints, but the approach can be extended to longer videos and more complex stories. Sample videos, code and annotations are available at: https://test-time-training.github.io/video-dit