ChatPaper.aiChatPaper

Modelagem Autoregressiva de Vídeo com Contexto Longo e Predição do Próximo Quadro

Long-Context Autoregressive Video Modeling with Next-Frame Prediction

March 25, 2025
Autores: Yuchao Gu, Weijia Mao, Mike Zheng Shou
cs.AI

Resumo

A modelagem autoregressiva de contexto longo avançou significativamente a geração de linguagem, mas a geração de vídeo ainda enfrenta dificuldades para utilizar plenamente contextos temporais estendidos. Para investigar a modelagem de vídeo de contexto longo, introduzimos o Frame AutoRegressive (FAR), uma linha de base robusta para a modelagem autoregressiva de vídeo. Assim como os modelos de linguagem aprendem dependências causais entre tokens (ou seja, Token AR), o FAR modela dependências causais temporais entre quadros contínuos, alcançando melhor convergência do que o Token AR e os transformadores de difusão de vídeo. Com base no FAR, observamos que a modelagem visual de contexto longo enfrenta desafios devido à redundância visual. O RoPE existente carece de decaimento temporal eficaz para contextos remotos e não extrapola bem para sequências de vídeo longas. Além disso, o treinamento em vídeos longos é computacionalmente caro, pois os tokens visuais crescem muito mais rapidamente do que os tokens de linguagem. Para abordar esses problemas, propomos equilibrar a localidade e a dependência de longo alcance. Introduzimos o FlexRoPE, uma técnica de teste que adiciona decaimento temporal flexível ao RoPE, permitindo a extrapolação para contextos visuais 16 vezes mais longos. Além disso, propomos a modelagem de contexto de curto e longo prazo, onde uma janela de contexto de curto prazo de alta resolução garante consistência temporal de granularidade fina, enquanto uma janela de contexto de longo prazo ilimitada codifica informações de longo alcance usando menos tokens. Com essa abordagem, podemos treinar em sequências de vídeo longas com um comprimento de contexto de token gerenciável. Demonstramos que o FAR alcança desempenho de ponta tanto na geração de vídeos curtos quanto longos, fornecendo uma linha de base simples, porém eficaz, para a modelagem autoregressiva de vídeo.
English
Long-context autoregressive modeling has significantly advanced language generation, but video generation still struggles to fully utilize extended temporal contexts. To investigate long-context video modeling, we introduce Frame AutoRegressive (FAR), a strong baseline for video autoregressive modeling. Just as language models learn causal dependencies between tokens (i.e., Token AR), FAR models temporal causal dependencies between continuous frames, achieving better convergence than Token AR and video diffusion transformers. Building on FAR, we observe that long-context vision modeling faces challenges due to visual redundancy. Existing RoPE lacks effective temporal decay for remote context and fails to extrapolate well to long video sequences. Additionally, training on long videos is computationally expensive, as vision tokens grow much faster than language tokens. To tackle these issues, we propose balancing locality and long-range dependency. We introduce FlexRoPE, an test-time technique that adds flexible temporal decay to RoPE, enabling extrapolation to 16x longer vision contexts. Furthermore, we propose long short-term context modeling, where a high-resolution short-term context window ensures fine-grained temporal consistency, while an unlimited long-term context window encodes long-range information using fewer tokens. With this approach, we can train on long video sequences with a manageable token context length. We demonstrate that FAR achieves state-of-the-art performance in both short- and long-video generation, providing a simple yet effective baseline for video autoregressive modeling.

Summary

AI-Generated Summary

PDF722March 26, 2025