VideoREPA: Изучение физики для генерации видео через реляционное согласование с базовыми моделями
VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models
May 29, 2025
Авторы: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng
cs.AI
Аннотация
Последние достижения в области моделей диффузии для преобразования текста в видео (T2V) позволили добиться синтеза видео с высокой точностью и реалистичностью. Однако современные модели T2V часто сталкиваются с трудностями при генерации физически правдоподобного контента из-за их ограниченной способности точно понимать физику. Мы обнаружили, что хотя представления внутри моделей T2V обладают некоторой способностью к пониманию физики, они значительно отстают от представлений, полученных с помощью современных методов самообучения на видео. В связи с этим мы предлагаем новую структуру под названием VideoREPA, которая переносит способность понимания физики из базовых моделей понимания видео в модели T2V путем выравнивания отношений на уровне токенов. Это устраняет разрыв в понимании физики и позволяет генерировать более физически правдоподобный контент. В частности, мы вводим функцию потерь для дистилляции отношений токенов (TRD), используя пространственно-временное выравнивание для предоставления мягкого руководства, подходящего для тонкой настройки мощных предварительно обученных моделей T2V, что является важным отличием от предыдущих методов выравнивания представлений (REPA). Насколько нам известно, VideoREPA является первым методом REPA, разработанным для тонкой настройки моделей T2V и специально для внедрения физических знаний. Эмпирические оценки показывают, что VideoREPA значительно улучшает физическую интуицию базового метода CogVideoX, демонстрируя существенное улучшение на соответствующих тестах и сильную способность генерировать видео, согласующиеся с интуитивной физикой. Дополнительные результаты видео доступны по адресу https://videorepa.github.io/.
English
Recent advancements in text-to-video (T2V) diffusion models have enabled
high-fidelity and realistic video synthesis. However, current T2V models often
struggle to generate physically plausible content due to their limited inherent
ability to accurately understand physics. We found that while the
representations within T2V models possess some capacity for physics
understanding, they lag significantly behind those from recent video
self-supervised learning methods. To this end, we propose a novel framework
called VideoREPA, which distills physics understanding capability from video
understanding foundation models into T2V models by aligning token-level
relations. This closes the physics understanding gap and enable more
physics-plausible generation. Specifically, we introduce the Token Relation
Distillation (TRD) loss, leveraging spatio-temporal alignment to provide soft
guidance suitable for finetuning powerful pre-trained T2V models, a critical
departure from prior representation alignment (REPA) methods. To our knowledge,
VideoREPA is the first REPA method designed for finetuning T2V models and
specifically for injecting physical knowledge. Empirical evaluations show that
VideoREPA substantially enhances the physics commonsense of baseline method,
CogVideoX, achieving significant improvement on relevant benchmarks and
demonstrating a strong capacity for generating videos consistent with intuitive
physics. More video results are available at https://videorepa.github.io/.