Modelado Autoregresivo de Video con Contexto Extendido mediante Predicción del Siguiente Fotograma
Long-Context Autoregressive Video Modeling with Next-Frame Prediction
March 25, 2025
Autores: Yuchao Gu, Weijia Mao, Mike Zheng Shou
cs.AI
Resumen
El modelado autoregresivo de contexto largo ha avanzado significativamente la generación de lenguaje, pero la generación de videos aún lucha por aprovechar completamente los contextos temporales extendidos. Para investigar el modelado de videos de contexto largo, presentamos Frame AutoRegressive (FAR), una línea base sólida para el modelado autoregresivo de videos. Así como los modelos de lenguaje aprenden dependencias causales entre tokens (es decir, Token AR), FAR modela dependencias causales temporales entre fotogramas continuos, logrando una mejor convergencia que Token AR y los transformadores de difusión de video. Basándonos en FAR, observamos que el modelado visual de contexto largo enfrenta desafíos debido a la redundancia visual. El RoPE existente carece de un decaimiento temporal efectivo para contextos remotos y no extrapola bien a secuencias de video largas. Además, entrenar en videos largos es computacionalmente costoso, ya que los tokens visuales crecen mucho más rápido que los tokens de lenguaje. Para abordar estos problemas, proponemos equilibrar la localidad y la dependencia de largo alcance. Introducimos FlexRoPE, una técnica en tiempo de prueba que añade un decaimiento temporal flexible a RoPE, permitiendo la extrapolación a contextos visuales 16 veces más largos. Además, proponemos el modelado de contexto a corto y largo plazo, donde una ventana de contexto a corto plazo de alta resolución asegura una consistencia temporal detallada, mientras que una ventana de contexto a largo plazo ilimitada codifica información de largo alcance utilizando menos tokens. Con este enfoque, podemos entrenar en secuencias de video largas con una longitud de contexto de tokens manejable. Demostramos que FAR alcanza un rendimiento de vanguardia tanto en la generación de videos cortos como largos, proporcionando una línea base simple pero efectiva para el modelado autoregresivo de videos.
English
Long-context autoregressive modeling has significantly advanced language
generation, but video generation still struggles to fully utilize extended
temporal contexts. To investigate long-context video modeling, we introduce
Frame AutoRegressive (FAR), a strong baseline for video autoregressive
modeling. Just as language models learn causal dependencies between tokens
(i.e., Token AR), FAR models temporal causal dependencies between continuous
frames, achieving better convergence than Token AR and video diffusion
transformers. Building on FAR, we observe that long-context vision modeling
faces challenges due to visual redundancy. Existing RoPE lacks effective
temporal decay for remote context and fails to extrapolate well to long video
sequences. Additionally, training on long videos is computationally expensive,
as vision tokens grow much faster than language tokens. To tackle these issues,
we propose balancing locality and long-range dependency. We introduce FlexRoPE,
an test-time technique that adds flexible temporal decay to RoPE, enabling
extrapolation to 16x longer vision contexts. Furthermore, we propose long
short-term context modeling, where a high-resolution short-term context window
ensures fine-grained temporal consistency, while an unlimited long-term context
window encodes long-range information using fewer tokens. With this approach,
we can train on long video sequences with a manageable token context length. We
demonstrate that FAR achieves state-of-the-art performance in both short- and
long-video generation, providing a simple yet effective baseline for video
autoregressive modeling.Summary
AI-Generated Summary