ChatPaper.aiChatPaper

긴 비디오 생성을 위한 컨텍스트 혼합

Mixture of Contexts for Long Video Generation

August 28, 2025
저자: Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
cs.AI

초록

긴 동영상 생성은 근본적으로 장기 문맥 기억 문제입니다: 모델은 붕괴하거나 표류하지 않고 긴 범위에 걸쳐 중요한 이벤트를 유지하고 검색할 수 있어야 합니다. 그러나 확산 트랜스포머를 확장하여 장기 문맥 동영상을 생성하는 것은 자기 주의(self-attention)의 이차 비용에 의해 근본적으로 제한되며, 이는 메모리와 계산을 다루기 어렵게 만들고 긴 시퀀스에 대한 최적화를 어렵게 합니다. 우리는 장기 문맥 동영상 생성을 내부 정보 검색 작업으로 재구성하고, 간단하면서도 학습 가능한 희소 주의 라우팅 모듈인 Mixture of Contexts (MoC)를 효과적인 장기 기억 검색 엔진으로 제안합니다. MoC에서 각 쿼리는 몇 개의 정보가 풍부한 청크와 필수 앵커(캡션, 로컬 윈도우)를 동적으로 선택하여 주의를 기울이며, 루프 종료를 방지하는 인과적 라우팅을 사용합니다. 데이터를 확장하고 라우팅을 점진적으로 희소화함에 따라, 모델은 중요한 역사에 계산을 할당하여 몇 분에 걸친 콘텐츠에서 신원, 행동, 장면을 보존합니다. 검색의 부산물로 효율성이 따라오며(거의 선형 확장), 이는 실질적인 훈련과 합성을 가능하게 하고, 몇 분 규모의 기억과 일관성이 나타나게 합니다.
English
Long video generation is fundamentally a long context memory problem: models must retain and retrieve salient events across a long range without collapsing or drifting. However, scaling diffusion transformers to generate long-context videos is fundamentally limited by the quadratic cost of self-attention, which makes memory and computation intractable and difficult to optimize for long sequences. We recast long-context video generation as an internal information retrieval task and propose a simple, learnable sparse attention routing module, Mixture of Contexts (MoC), as an effective long-term memory retrieval engine. In MoC, each query dynamically selects a few informative chunks plus mandatory anchors (caption, local windows) to attend to, with causal routing that prevents loop closures. As we scale the data and gradually sparsify the routing, the model allocates compute to salient history, preserving identities, actions, and scenes over minutes of content. Efficiency follows as a byproduct of retrieval (near-linear scaling), which enables practical training and synthesis, and the emergence of memory and consistency at the scale of minutes.
PDF232August 29, 2025