Autoregressieve videomodellering met lange context en voorspelling van het volgende frame
Long-Context Autoregressive Video Modeling with Next-Frame Prediction
March 25, 2025
Auteurs: Yuchao Gu, Weijia Mao, Mike Zheng Shou
cs.AI
Samenvatting
Langetermijn autoregressieve modellering heeft de taalgeneratie aanzienlijk vooruitgeholpen, maar videogeneratie heeft nog steeds moeite om uitgebreide temporele contexten volledig te benutten. Om langetermijn videomodellering te onderzoeken, introduceren we Frame AutoRegressive (FAR), een sterke basislijn voor autoregressieve videomodellering. Net zoals taalmodellen causale afhankelijkheden tussen tokens leren (d.w.z. Token AR), modelleert FAR temporele causale afhankelijkheden tussen opeenvolgende frames, wat betere convergentie oplevert dan Token AR en videodiffusietransformers. Op basis van FAR merken we dat langetermijn visuele modellering uitdagingen ondervindt door visuele redundantie. Bestaande RoPE mist effectief temporeel verval voor verre context en slaagt er niet goed in om te extrapoleren naar lange videosequenties. Bovendien is trainen op lange video's rekenkundig duur, omdat visuele tokens veel sneller groeien dan taaltokens. Om deze problemen aan te pakken, stellen we voor om lokale en langetermijn afhankelijkheden in balans te brengen. We introduceren FlexRoPE, een testtijdtechniek die flexibel temporeel verval toevoegt aan RoPE, waardoor extrapolatie naar 16x langere visuele contexten mogelijk wordt. Daarnaast stellen we langetermijn kortetermijn contextmodellering voor, waarbij een hoge-resolutie kortetermijn contextvenster fijnmazige temporele consistentie waarborgt, terwijl een onbeperkt langetermijn contextvenster langetermijn informatie codeert met minder tokens. Met deze aanpak kunnen we trainen op lange videosequenties met een beheersbare tokencontextlengte. We demonstreren dat FAR state-of-the-art prestaties behaalt in zowel korte als lange videogeneratie, en biedt zo een eenvoudige maar effectieve basislijn voor autoregressieve videomodellering.
English
Long-context autoregressive modeling has significantly advanced language
generation, but video generation still struggles to fully utilize extended
temporal contexts. To investigate long-context video modeling, we introduce
Frame AutoRegressive (FAR), a strong baseline for video autoregressive
modeling. Just as language models learn causal dependencies between tokens
(i.e., Token AR), FAR models temporal causal dependencies between continuous
frames, achieving better convergence than Token AR and video diffusion
transformers. Building on FAR, we observe that long-context vision modeling
faces challenges due to visual redundancy. Existing RoPE lacks effective
temporal decay for remote context and fails to extrapolate well to long video
sequences. Additionally, training on long videos is computationally expensive,
as vision tokens grow much faster than language tokens. To tackle these issues,
we propose balancing locality and long-range dependency. We introduce FlexRoPE,
an test-time technique that adds flexible temporal decay to RoPE, enabling
extrapolation to 16x longer vision contexts. Furthermore, we propose long
short-term context modeling, where a high-resolution short-term context window
ensures fine-grained temporal consistency, while an unlimited long-term context
window encodes long-range information using fewer tokens. With this approach,
we can train on long video sequences with a manageable token context length. We
demonstrate that FAR achieves state-of-the-art performance in both short- and
long-video generation, providing a simple yet effective baseline for video
autoregressive modeling.Summary
AI-Generated Summary