Modelagem Autoregressiva de Vídeo com Contexto Longo e Predição do Próximo QuadroLong-Context Autoregressive Video Modeling with Next-Frame Prediction
A modelagem autoregressiva de contexto longo avançou significativamente a geração de linguagem, mas a geração de vídeo ainda enfrenta dificuldades para utilizar plenamente contextos temporais estendidos. Para investigar a modelagem de vídeo de contexto longo, introduzimos o Frame AutoRegressive (FAR), uma linha de base robusta para a modelagem autoregressiva de vídeo. Assim como os modelos de linguagem aprendem dependências causais entre tokens (ou seja, Token AR), o FAR modela dependências causais temporais entre quadros contínuos, alcançando melhor convergência do que o Token AR e os transformadores de difusão de vídeo. Com base no FAR, observamos que a modelagem visual de contexto longo enfrenta desafios devido à redundância visual. O RoPE existente carece de decaimento temporal eficaz para contextos remotos e não extrapola bem para sequências de vídeo longas. Além disso, o treinamento em vídeos longos é computacionalmente caro, pois os tokens visuais crescem muito mais rapidamente do que os tokens de linguagem. Para abordar esses problemas, propomos equilibrar a localidade e a dependência de longo alcance. Introduzimos o FlexRoPE, uma técnica de teste que adiciona decaimento temporal flexível ao RoPE, permitindo a extrapolação para contextos visuais 16 vezes mais longos. Além disso, propomos a modelagem de contexto de curto e longo prazo, onde uma janela de contexto de curto prazo de alta resolução garante consistência temporal de granularidade fina, enquanto uma janela de contexto de longo prazo ilimitada codifica informações de longo alcance usando menos tokens. Com essa abordagem, podemos treinar em sequências de vídeo longas com um comprimento de contexto de token gerenciável. Demonstramos que o FAR alcança desempenho de ponta tanto na geração de vídeos curtos quanto longos, fornecendo uma linha de base simples, porém eficaz, para a modelagem autoregressiva de vídeo.