VideoREPA: Изучение физики для генерации видео через реляционное согласование с базовыми моделями

Аннотация

Последние достижения в области моделей диффузии для преобразования текста в видео (T2V) позволили добиться синтеза видео с высокой точностью и реалистичностью. Однако современные модели T2V часто сталкиваются с трудностями при генерации физически правдоподобного контента из-за их ограниченной способности точно понимать физику. Мы обнаружили, что хотя представления внутри моделей T2V обладают некоторой способностью к пониманию физики, они значительно отстают от представлений, полученных с помощью современных методов самообучения на видео. В связи с этим мы предлагаем новую структуру под названием VideoREPA, которая переносит способность понимания физики из базовых моделей понимания видео в модели T2V путем выравнивания отношений на уровне токенов. Это устраняет разрыв в понимании физики и позволяет генерировать более физически правдоподобный контент. В частности, мы вводим функцию потерь для дистилляции отношений токенов (TRD), используя пространственно-временное выравнивание для предоставления мягкого руководства, подходящего для тонкой настройки мощных предварительно обученных моделей T2V, что является важным отличием от предыдущих методов выравнивания представлений (REPA). Насколько нам известно, VideoREPA является первым методом REPA, разработанным для тонкой настройки моделей T2V и специально для внедрения физических знаний. Эмпирические оценки показывают, что VideoREPA значительно улучшает физическую интуицию базового метода CogVideoX, демонстрируя существенное улучшение на соответствующих тестах и сильную способность генерировать видео, согласующиеся с интуитивной физикой. Дополнительные результаты видео доступны по адресу https://videorepa.github.io/.

English

Recent advancements in text-to-video (T2V) diffusion models have enabled high-fidelity and realistic video synthesis. However, current T2V models often struggle to generate physically plausible content due to their limited inherent ability to accurately understand physics. We found that while the representations within T2V models possess some capacity for physics understanding, they lag significantly behind those from recent video self-supervised learning methods. To this end, we propose a novel framework called VideoREPA, which distills physics understanding capability from video understanding foundation models into T2V models by aligning token-level relations. This closes the physics understanding gap and enable more physics-plausible generation. Specifically, we introduce the Token Relation Distillation (TRD) loss, leveraging spatio-temporal alignment to provide soft guidance suitable for finetuning powerful pre-trained T2V models, a critical departure from prior representation alignment (REPA) methods. To our knowledge, VideoREPA is the first REPA method designed for finetuning T2V models and specifically for injecting physical knowledge. Empirical evaluations show that VideoREPA substantially enhances the physics commonsense of baseline method, CogVideoX, achieving significant improvement on relevant benchmarks and demonstrating a strong capacity for generating videos consistent with intuitive physics. More video results are available at https://videorepa.github.io/.

VideoREPA: Изучение физики для генерации видео через реляционное согласование с базовыми моделями

VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

Аннотация

Support