Modelado Autoregresivo de Video con Contexto Extendido mediante Predicción del Siguiente FotogramaLong-Context Autoregressive Video Modeling with Next-Frame Prediction
El modelado autoregresivo de contexto largo ha avanzado significativamente la generación de lenguaje, pero la generación de videos aún lucha por aprovechar completamente los contextos temporales extendidos. Para investigar el modelado de videos de contexto largo, presentamos Frame AutoRegressive (FAR), una línea base sólida para el modelado autoregresivo de videos. Así como los modelos de lenguaje aprenden dependencias causales entre tokens (es decir, Token AR), FAR modela dependencias causales temporales entre fotogramas continuos, logrando una mejor convergencia que Token AR y los transformadores de difusión de video. Basándonos en FAR, observamos que el modelado visual de contexto largo enfrenta desafíos debido a la redundancia visual. El RoPE existente carece de un decaimiento temporal efectivo para contextos remotos y no extrapola bien a secuencias de video largas. Además, entrenar en videos largos es computacionalmente costoso, ya que los tokens visuales crecen mucho más rápido que los tokens de lenguaje. Para abordar estos problemas, proponemos equilibrar la localidad y la dependencia de largo alcance. Introducimos FlexRoPE, una técnica en tiempo de prueba que añade un decaimiento temporal flexible a RoPE, permitiendo la extrapolación a contextos visuales 16 veces más largos. Además, proponemos el modelado de contexto a corto y largo plazo, donde una ventana de contexto a corto plazo de alta resolución asegura una consistencia temporal detallada, mientras que una ventana de contexto a largo plazo ilimitada codifica información de largo alcance utilizando menos tokens. Con este enfoque, podemos entrenar en secuencias de video largas con una longitud de contexto de tokens manejable. Demostramos que FAR alcanza un rendimiento de vanguardia tanto en la generación de videos cortos como largos, proporcionando una línea base simple pero efectiva para el modelado autoregresivo de videos.