장문맥 자기회귀 비디오 모델링과 다음 프레임 예측
Long-Context Autoregressive Video Modeling with Next-Frame Prediction
March 25, 2025
저자: Yuchao Gu, Weijia Mao, Mike Zheng Shou
cs.AI
초록
장문맥 자동회귀 모델링은 언어 생성 분야에서 큰 진전을 이루었지만, 비디오 생성은 여전히 확장된 시간적 맥락을 완전히 활용하는 데 어려움을 겪고 있습니다. 장문맥 비디오 모델링을 연구하기 위해, 우리는 비디오 자동회귀 모델링을 위한 강력한 기준선인 프레임 자동회귀(FAR)를 소개합니다. 언어 모델이 토큰 간의 인과적 의존성을 학습하는 것(즉, 토큰 AR)과 마찬가지로, FAR는 연속된 프레임 간의 시간적 인과적 의존성을 모델링하여 토큰 AR과 비디오 확산 트랜스포머보다 더 나은 수렴을 달성합니다. FAR를 기반으로, 우리는 장문맥 비전 모델링이 시각적 중복성으로 인해 어려움에 직면한다는 것을 관찰했습니다. 기존의 RoPE는 원거리 맥락에 대한 효과적인 시간적 감쇠가 부족하며, 긴 비디오 시퀀스로의 외삽이 잘 되지 않습니다. 또한, 긴 비디오를 학습하는 것은 계산 비용이 많이 드는데, 이는 비전 토큰이 언어 토큰보다 훨씬 빠르게 증가하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 지역성과 장거리 의존성의 균형을 맞추는 것을 제안합니다. 우리는 RoPE에 유연한 시간적 감쇠를 추가하여 16배 더 긴 비전 맥락으로의 외삽을 가능하게 하는 테스트 시간 기법인 FlexRoPE를 소개합니다. 더 나아가, 우리는 고해상도의 단기 맥락 창이 세밀한 시간적 일관성을 보장하는 반면, 무제한의 장기 맥락 창이 더 적은 토큰을 사용하여 장거리 정보를 인코딩하는 장단기 맥락 모델링을 제안합니다. 이 접근 방식을 통해, 우리는 관리 가능한 토큰 맥락 길이로 긴 비디오 시퀀스를 학습할 수 있습니다. 우리는 FAR가 짧은 비디오와 긴 비디오 생성 모두에서 최첨단 성능을 달성하며, 비디오 자동회귀 모델링을 위한 간단하지만 효과적인 기준선을 제공한다는 것을 보여줍니다.
English
Long-context autoregressive modeling has significantly advanced language
generation, but video generation still struggles to fully utilize extended
temporal contexts. To investigate long-context video modeling, we introduce
Frame AutoRegressive (FAR), a strong baseline for video autoregressive
modeling. Just as language models learn causal dependencies between tokens
(i.e., Token AR), FAR models temporal causal dependencies between continuous
frames, achieving better convergence than Token AR and video diffusion
transformers. Building on FAR, we observe that long-context vision modeling
faces challenges due to visual redundancy. Existing RoPE lacks effective
temporal decay for remote context and fails to extrapolate well to long video
sequences. Additionally, training on long videos is computationally expensive,
as vision tokens grow much faster than language tokens. To tackle these issues,
we propose balancing locality and long-range dependency. We introduce FlexRoPE,
an test-time technique that adds flexible temporal decay to RoPE, enabling
extrapolation to 16x longer vision contexts. Furthermore, we propose long
short-term context modeling, where a high-resolution short-term context window
ensures fine-grained temporal consistency, while an unlimited long-term context
window encodes long-range information using fewer tokens. With this approach,
we can train on long video sequences with a manageable token context length. We
demonstrate that FAR achieves state-of-the-art performance in both short- and
long-video generation, providing a simple yet effective baseline for video
autoregressive modeling.Summary
AI-Generated Summary