ChatPaper.aiChatPaper

Обучение на основе предсказания следующего кадра: авторегрессионное моделирование видео кодирует эффективные представления

Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations

December 24, 2025
Авторы: Jinghan Li, Yang Jin, Hao Jiang, Yadong Mu, Yang Song, Kun Xu
cs.AI

Аннотация

Последние достижения в предварительном обучении универсальных базовых моделей значительно повысили производительность в разнообразных downstream-задачах. Хотя авторегрессионные (AR) генеративные модели, такие как GPT, произвели революцию в NLP, большинство методов визуального генеративного предварительного обучения по-прежнему полагаются на маскированное моделирование в стиле BERT, которое часто игнорирует временную информацию, необходимую для анализа видео. Немногочисленные существующие авторегрессионные методы визуального предварительного обучения страдают от таких проблем, как неточная семантическая локализация и низкое качество генерации, что приводит к плохой семантике. В данной работе мы предлагаем NExT-Vid — новую авторегрессионную визуальную генеративную структуру предварительного обучения, которая использует маскированное предсказание следующего кадра для совместного моделирования изображений и видео. NExT-Vid представляет контекстно-изолированный авторегрессионный предиктор для разделения семантического представления и декодирования цели, а также условный декодер с согласованием потоков для повышения качества и разнообразия генерации. Благодаря контекстно-изолированному предварительному обучению с согласованием потоков наш подход достигает мощных представлений. Многочисленные эксперименты на крупномасштабных предобученных моделях демонстрируют, что предложенный метод последовательно превосходит предыдущие генеративные методы предварительного обучения для визуального представления при проверке посредством внимания в downstream-классификации.
English
Recent advances in pretraining general foundation models have significantly improved performance across diverse downstream tasks. While autoregressive (AR) generative models like GPT have revolutionized NLP, most visual generative pretraining methods still rely on BERT-style masked modeling, which often disregards the temporal information essential for video analysis. The few existing autoregressive visual pretraining methods suffer from issues such as inaccurate semantic localization and poor generation quality, leading to poor semantics. In this work, we propose NExT-Vid, a novel autoregressive visual generative pretraining framework that utilizes masked next-frame prediction to jointly model images and videos. NExT-Vid introduces a context-isolated autoregressive predictor to decouple semantic representation from target decoding, and a conditioned flow-matching decoder to enhance generation quality and diversity. Through context-isolated flow-matching pretraining, our approach achieves strong representations. Extensive experiments on large-scale pretrained models demonstrate that our proposed method consistently outperforms previous generative pretraining methods for visual representation learning via attentive probing in downstream classification.
PDF71December 26, 2025