Modélisation vidéo autorégressive à long contexte avec prédiction d'image suivante
Long-Context Autoregressive Video Modeling with Next-Frame Prediction
March 25, 2025
Auteurs: Yuchao Gu, Weijia Mao, Mike Zheng Shou
cs.AI
Résumé
La modélisation autorégressive à long contexte a considérablement fait progresser la génération de langage, mais la génération vidéo peine encore à exploiter pleinement les contextes temporels étendus. Pour étudier la modélisation vidéo à long contexte, nous introduisons Frame AutoRegressive (FAR), une base solide pour la modélisation autorégressive vidéo. Tout comme les modèles de langage apprennent les dépendances causales entre les tokens (c'est-à-dire Token AR), FAR modélise les dépendances causales temporelles entre des images continues, atteignant une meilleure convergence que Token AR et les transformateurs de diffusion vidéo. En nous appuyant sur FAR, nous observons que la modélisation visuelle à long contexte rencontre des défis dus à la redondance visuelle. La RoPE existante manque d'un décroissement temporel efficace pour les contextes distants et ne parvient pas à extrapoler correctement aux longues séquences vidéo. De plus, l'entraînement sur de longues vidéos est coûteux en calcul, car les tokens visuels augmentent beaucoup plus rapidement que les tokens de langage. Pour résoudre ces problèmes, nous proposons d'équilibrer la localité et la dépendance à longue portée. Nous introduisons FlexRoPE, une technique en temps de test qui ajoute un décroissement temporel flexible à RoPE, permettant l'extrapolation à des contextes visuels 16 fois plus longs. Par ailleurs, nous proposons une modélisation de contexte à court et long terme, où une fenêtre de contexte à court terme en haute résolution assure une cohérence temporelle fine, tandis qu'une fenêtre de contexte à long terme illimitée encode des informations à longue portée en utilisant moins de tokens. Avec cette approche, nous pouvons entraîner sur de longues séquences vidéo avec une longueur de contexte de tokens gérable. Nous démontrons que FAR atteint des performances de pointe à la fois dans la génération de vidéos courtes et longues, offrant une base simple mais efficace pour la modélisation autorégressive vidéo.
English
Long-context autoregressive modeling has significantly advanced language
generation, but video generation still struggles to fully utilize extended
temporal contexts. To investigate long-context video modeling, we introduce
Frame AutoRegressive (FAR), a strong baseline for video autoregressive
modeling. Just as language models learn causal dependencies between tokens
(i.e., Token AR), FAR models temporal causal dependencies between continuous
frames, achieving better convergence than Token AR and video diffusion
transformers. Building on FAR, we observe that long-context vision modeling
faces challenges due to visual redundancy. Existing RoPE lacks effective
temporal decay for remote context and fails to extrapolate well to long video
sequences. Additionally, training on long videos is computationally expensive,
as vision tokens grow much faster than language tokens. To tackle these issues,
we propose balancing locality and long-range dependency. We introduce FlexRoPE,
an test-time technique that adds flexible temporal decay to RoPE, enabling
extrapolation to 16x longer vision contexts. Furthermore, we propose long
short-term context modeling, where a high-resolution short-term context window
ensures fine-grained temporal consistency, while an unlimited long-term context
window encodes long-range information using fewer tokens. With this approach,
we can train on long video sequences with a manageable token context length. We
demonstrate that FAR achieves state-of-the-art performance in both short- and
long-video generation, providing a simple yet effective baseline for video
autoregressive modeling.Summary
AI-Generated Summary