Авторегрессионное моделирование видео с длинным контекстом и предсказанием следующего кадраLong-Context Autoregressive Video Modeling with Next-Frame Prediction
Авторегрессионное моделирование с длинным контекстом значительно продвинуло генерацию текста, однако генерация видео по-прежнему испытывает трудности с полным использованием расширенных временных контекстов. Для исследования моделирования видео с длинным контекстом мы представляем Frame AutoRegressive (FAR), мощный базовый подход для авторегрессионного моделирования видео. Подобно тому, как языковые модели изучают причинные зависимости между токенами (т.е., Token AR), FAR моделирует временные причинные зависимости между последовательными кадрами, достигая лучшей сходимости по сравнению с Token AR и видео диффузионными трансформерами. На основе FAR мы отмечаем, что моделирование зрения с длинным контекстом сталкивается с проблемами из-за визуальной избыточности. Существующий RoPE не обеспечивает эффективного временного затухания для удаленного контекста и плохо экстраполируется на длинные видео последовательности. Кроме того, обучение на длинных видео вычислительно затратно, так как визуальные токены растут гораздо быстрее, чем языковые. Для решения этих проблем мы предлагаем баланс между локальностью и долгосрочной зависимостью. Мы представляем FlexRoPE, технику на этапе тестирования, которая добавляет гибкое временное затухание к RoPE, позволяя экстраполировать на 16 раз более длинные визуальные контексты. Дополнительно, мы предлагаем моделирование долгосрочного и краткосрочного контекста, где высокоразрешающее окно краткосрочного контекста обеспечивает детальную временную согласованность, а неограниченное окно долгосрочного контекста кодирует долгосрочную информацию с использованием меньшего количества токенов. С таким подходом мы можем обучаться на длинных видео последовательностях с управляемой длиной контекста токенов. Мы демонстрируем, что FAR достигает передовых результатов как в генерации коротких, так и длинных видео, предоставляя простой, но эффективный базовый подход для авторегрессионного моделирования видео.