VideoJAM: Совместное представление внешности и движения для улучшенного создания движения в видеомоделяхVideoJAM: Joint Appearance-Motion Representations for Enhanced Motion
Generation in Video Models
Несмотря на огромные недавние успехи, генеративные видеомодели все еще испытывают трудности в воссоздании движения, динамики и физики реального мира. Мы показываем, что эта ограниченность происходит из-за традиционной цели восстановления пикселей, которая склоняет модели к сохранению внешнего вида за счет согласованности движения. Для решения этой проблемы мы представляем VideoJAM, новую структуру, которая внедряет эффективный приоритет движения для видеогенераторов, поощряя модель к изучению совместного представления внешнего вида и движения. VideoJAM состоит из двух взаимодополняющих блоков. Во время обучения мы расширяем цель до предсказания как сгенерированных пикселей, так и их соответствующего движения из одного изученного представления. Во время вывода мы внедряем Inner-Guidance, механизм, направляющий генерацию к согласованному движению, используя собственное прогнозирование движения модели в качестве динамического сигнала руководства. Значительно, наша структура может быть применена к любой видеомодели с минимальными адаптациями, не требуя изменений в обучающих данных или масштабирования модели. VideoJAM достигает передовой производительности в согласованности движения, превосходя высококонкурентные собственные модели, улучшая воспринимаемое визуальное качество генераций. Эти результаты подчеркивают, что внешний вид и движение могут быть взаимодополняющими и, когда эффективно интегрированы, улучшают как визуальное качество, так и согласованность генерации видео. Веб-сайт проекта: https://hila-chefer.github.io/videojam-paper.github.io/