Авторегрессионное моделирование видео с длинным контекстом и предсказанием следующего кадра
Long-Context Autoregressive Video Modeling with Next-Frame Prediction
March 25, 2025
Авторы: Yuchao Gu, Weijia Mao, Mike Zheng Shou
cs.AI
Аннотация
Авторегрессионное моделирование с длинным контекстом значительно продвинуло генерацию текста, однако генерация видео по-прежнему испытывает трудности с полным использованием расширенных временных контекстов. Для исследования моделирования видео с длинным контекстом мы представляем Frame AutoRegressive (FAR), мощный базовый подход для авторегрессионного моделирования видео. Подобно тому, как языковые модели изучают причинные зависимости между токенами (т.е., Token AR), FAR моделирует временные причинные зависимости между последовательными кадрами, достигая лучшей сходимости по сравнению с Token AR и видео диффузионными трансформерами. На основе FAR мы отмечаем, что моделирование зрения с длинным контекстом сталкивается с проблемами из-за визуальной избыточности. Существующий RoPE не обеспечивает эффективного временного затухания для удаленного контекста и плохо экстраполируется на длинные видео последовательности. Кроме того, обучение на длинных видео вычислительно затратно, так как визуальные токены растут гораздо быстрее, чем языковые. Для решения этих проблем мы предлагаем баланс между локальностью и долгосрочной зависимостью. Мы представляем FlexRoPE, технику на этапе тестирования, которая добавляет гибкое временное затухание к RoPE, позволяя экстраполировать на 16 раз более длинные визуальные контексты. Дополнительно, мы предлагаем моделирование долгосрочного и краткосрочного контекста, где высокоразрешающее окно краткосрочного контекста обеспечивает детальную временную согласованность, а неограниченное окно долгосрочного контекста кодирует долгосрочную информацию с использованием меньшего количества токенов. С таким подходом мы можем обучаться на длинных видео последовательностях с управляемой длиной контекста токенов. Мы демонстрируем, что FAR достигает передовых результатов как в генерации коротких, так и длинных видео, предоставляя простой, но эффективный базовый подход для авторегрессионного моделирования видео.
English
Long-context autoregressive modeling has significantly advanced language
generation, but video generation still struggles to fully utilize extended
temporal contexts. To investigate long-context video modeling, we introduce
Frame AutoRegressive (FAR), a strong baseline for video autoregressive
modeling. Just as language models learn causal dependencies between tokens
(i.e., Token AR), FAR models temporal causal dependencies between continuous
frames, achieving better convergence than Token AR and video diffusion
transformers. Building on FAR, we observe that long-context vision modeling
faces challenges due to visual redundancy. Existing RoPE lacks effective
temporal decay for remote context and fails to extrapolate well to long video
sequences. Additionally, training on long videos is computationally expensive,
as vision tokens grow much faster than language tokens. To tackle these issues,
we propose balancing locality and long-range dependency. We introduce FlexRoPE,
an test-time technique that adds flexible temporal decay to RoPE, enabling
extrapolation to 16x longer vision contexts. Furthermore, we propose long
short-term context modeling, where a high-resolution short-term context window
ensures fine-grained temporal consistency, while an unlimited long-term context
window encodes long-range information using fewer tokens. With this approach,
we can train on long video sequences with a manageable token context length. We
demonstrate that FAR achieves state-of-the-art performance in both short- and
long-video generation, providing a simple yet effective baseline for video
autoregressive modeling.Summary
AI-Generated Summary