다음 프레임 예측을 통한 학습: 자기회귀 비디오 모델링이 효과적인 표현을 인코딩하는 방법
Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations
December 24, 2025
저자: Jinghan Li, Yang Jin, Hao Jiang, Yadong Mu, Yang Song, Kun Xu
cs.AI
초록
최근 일반 목적 파운데이션 모델의 사전 학습 기술 발전으로 다양한 다운스트림 작업에서의 성능이 크게 향상되었습니다. GPT와 같은 자기회귀적 생성 모델이 NLP 분야를 혁신했음에도 불구하고, 대부분의 시각 생성 사전 학습 방법은 여전히 BERT 스타일의 마스크 모델링에 의존하며, 이는 비디오 분석에 필수적인 시간적 정보를 종종 무시합니다. 기존의 소수 자기회귀적 시각 사전 학습 방법들은 부정확한 의미론적 위치 지정과 낮은 생성 품질 등의 문제로 인해 열악한 의미 표현을 보입니다. 본 연구에서는 마스킹된 다음 프레임 예측을 활용하여 이미지와 비디오를 통합적으로 모델링하는 새로운 자기회귀적 시각 생성 사전 학습 프레임워크인 NExT-Vid를 제안합니다. NExT-Vid는 의미 표현과 대상 디코딩을 분리하기 위한 컨텍스트 격리 자기회귀 예측기와 생성 품질 및 다양성을 향상시키기 위한 조건부 흐름 매칭 디코더를 도입합니다. 컨텍스트 격리 흐름 매칭 사전 학습을 통해 우리의 접근법은 강력한 표현력을 달성합니다. 대규모 사전 학습 모델에 대한 폭넓은 실험을 통해, 제안된 방법이 다운스트림 분류 작업에서의 주의 집단적 탐지를 통한 시각 표현 학습에 있어 기존 생성 사전 학습 방법들을 지속적으로 능가함을 입증합니다.
English
Recent advances in pretraining general foundation models have significantly improved performance across diverse downstream tasks. While autoregressive (AR) generative models like GPT have revolutionized NLP, most visual generative pretraining methods still rely on BERT-style masked modeling, which often disregards the temporal information essential for video analysis. The few existing autoregressive visual pretraining methods suffer from issues such as inaccurate semantic localization and poor generation quality, leading to poor semantics. In this work, we propose NExT-Vid, a novel autoregressive visual generative pretraining framework that utilizes masked next-frame prediction to jointly model images and videos. NExT-Vid introduces a context-isolated autoregressive predictor to decouple semantic representation from target decoding, and a conditioned flow-matching decoder to enhance generation quality and diversity. Through context-isolated flow-matching pretraining, our approach achieves strong representations. Extensive experiments on large-scale pretrained models demonstrate that our proposed method consistently outperforms previous generative pretraining methods for visual representation learning via attentive probing in downstream classification.