ChatPaper.aiChatPaper

次のフレーム予測からの学習:自己回帰的ビデオモデリングが効果的な表現を符号化する

Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations

December 24, 2025
著者: Jinghan Li, Yang Jin, Hao Jiang, Yadong Mu, Yang Song, Kun Xu
cs.AI

要旨

大規模汎用基盤モデルの事前学習における最近の進展は、多様な下流タスクにおける性能を著しく向上させてきた。GPTのような自己回帰的生成モデルが自然言語処理に革命をもたらした一方で、視覚的生成事前学習手法の大半は依然としてBERTスタイルのマスクモデリングに依存しており、映像分析に不可欠な時間情報を軽視しがちである。既存の数少ない自己回帰的視覚事前学習手法は、不正確な意味的局在化や低品質な生成といった問題を抱え、結果として貧弱な意味表現に陥っている。本研究では、マスク化次フレーム予測を活用して画像と映像を統合的にモデル化する新しい自己回帰的視覚生成事前学習フレームワーク「NExT-Vid」を提案する。NExT-Vidは、意味表現とターゲット復号を分離する文脈分離型自己回帰予測器と、生成品質と多様性を高める条件付きフローマッチング復号器を導入する。文脈分離型フローマッチング事前学習を通じて、我々の手法は強力な表現獲得を実現する。大規模事前学習モデルを用いた広範な実験により、提案手法が下流分類タスクにおける注意深いプロービングによる視覚表現学習において、従来の生成事前学習手法を一貫して凌駕することを実証する。
English
Recent advances in pretraining general foundation models have significantly improved performance across diverse downstream tasks. While autoregressive (AR) generative models like GPT have revolutionized NLP, most visual generative pretraining methods still rely on BERT-style masked modeling, which often disregards the temporal information essential for video analysis. The few existing autoregressive visual pretraining methods suffer from issues such as inaccurate semantic localization and poor generation quality, leading to poor semantics. In this work, we propose NExT-Vid, a novel autoregressive visual generative pretraining framework that utilizes masked next-frame prediction to jointly model images and videos. NExT-Vid introduces a context-isolated autoregressive predictor to decouple semantic representation from target decoding, and a conditioned flow-matching decoder to enhance generation quality and diversity. Through context-isolated flow-matching pretraining, our approach achieves strong representations. Extensive experiments on large-scale pretrained models demonstrate that our proposed method consistently outperforms previous generative pretraining methods for visual representation learning via attentive probing in downstream classification.
PDF71December 26, 2025