ChatPaper.aiChatPaper

VideoJAM: Совместное представление внешности и движения для улучшенного создания движения в видеомоделях

VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

February 4, 2025
Авторы: Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin
cs.AI

Аннотация

Несмотря на огромные недавние успехи, генеративные видеомодели все еще испытывают трудности в воссоздании движения, динамики и физики реального мира. Мы показываем, что эта ограниченность происходит из-за традиционной цели восстановления пикселей, которая склоняет модели к сохранению внешнего вида за счет согласованности движения. Для решения этой проблемы мы представляем VideoJAM, новую структуру, которая внедряет эффективный приоритет движения для видеогенераторов, поощряя модель к изучению совместного представления внешнего вида и движения. VideoJAM состоит из двух взаимодополняющих блоков. Во время обучения мы расширяем цель до предсказания как сгенерированных пикселей, так и их соответствующего движения из одного изученного представления. Во время вывода мы внедряем Inner-Guidance, механизм, направляющий генерацию к согласованному движению, используя собственное прогнозирование движения модели в качестве динамического сигнала руководства. Значительно, наша структура может быть применена к любой видеомодели с минимальными адаптациями, не требуя изменений в обучающих данных или масштабирования модели. VideoJAM достигает передовой производительности в согласованности движения, превосходя высококонкурентные собственные модели, улучшая воспринимаемое визуальное качество генераций. Эти результаты подчеркивают, что внешний вид и движение могут быть взаимодополняющими и, когда эффективно интегрированы, улучшают как визуальное качество, так и согласованность генерации видео. Веб-сайт проекта: https://hila-chefer.github.io/videojam-paper.github.io/
English
Despite tremendous recent progress, generative video models still struggle to capture real-world motion, dynamics, and physics. We show that this limitation arises from the conventional pixel reconstruction objective, which biases models toward appearance fidelity at the expense of motion coherence. To address this, we introduce VideoJAM, a novel framework that instills an effective motion prior to video generators, by encouraging the model to learn a joint appearance-motion representation. VideoJAM is composed of two complementary units. During training, we extend the objective to predict both the generated pixels and their corresponding motion from a single learned representation. During inference, we introduce Inner-Guidance, a mechanism that steers the generation toward coherent motion by leveraging the model's own evolving motion prediction as a dynamic guidance signal. Notably, our framework can be applied to any video model with minimal adaptations, requiring no modifications to the training data or scaling of the model. VideoJAM achieves state-of-the-art performance in motion coherence, surpassing highly competitive proprietary models while also enhancing the perceived visual quality of the generations. These findings emphasize that appearance and motion can be complementary and, when effectively integrated, enhance both the visual quality and the coherence of video generation. Project website: https://hila-chefer.github.io/videojam-paper.github.io/

Summary

AI-Generated Summary

PDF658February 5, 2025