ChatPaper.aiChatPaper

자기회귀 비디오 확산 모델의 오류 분석: 통합 프레임워크

Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework

March 12, 2025
저자: Jing Wang, Fengzhuo Zhang, Xiaoli Li, Vincent Y. F. Tan, Tianyu Pang, Chao Du, Aixin Sun, Zhuoran Yang
cs.AI

초록

다양한 자동회귀 비디오 확산 모델(Auto-Regressive Video Diffusion Models, ARVDM)이 현실적인 장편 비디오 생성에서 놀라운 성과를 거두고 있습니다. 그러나 이러한 모델에 대한 이론적 분석은 여전히 부족한 상황입니다. 본 연구에서는 이러한 모델에 대한 이론적 기반을 구축하고, 이를 통해 기존 모델의 성능을 개선하는 데 활용합니다. 먼저, 기존의 대부분의 방법을 포괄하는 통합 프레임워크인 Meta-ARVDM을 개발합니다. Meta-ARVDM을 사용하여 Meta-ARVDM이 생성한 비디오와 실제 비디오 간의 KL-발산(KL-divergence)을 분석합니다. 이 분석을 통해 ARVDM에 내재된 두 가지 중요한 현상, 즉 오류 누적(error accumulation)과 메모리 병목(memory bottleneck)을 발견합니다. 정보 이론적 불가능성 결과를 도출함으로써, 메모리 병목 현상을 피할 수 없음을 보여줍니다. 메모리 병목을 완화하기 위해, 더 많은 과거 프레임을 명시적으로 사용하는 다양한 네트워크 구조를 설계합니다. 또한 프레임을 압축함으로써 메모리 병목 완화와 추론 효율성 간의 균형을 크게 개선합니다. DMLab과 Minecraft에서의 실험 결과는 우리의 방법의 효용성을 입증합니다. 또한, 다양한 방법 간에 오류 누적과 메모리 병목 간의 파레토 최적(Pareto-frontier)을 실험적으로 보여줍니다.
English
A variety of Auto-Regressive Video Diffusion Models (ARVDM) have achieved remarkable successes in generating realistic long-form videos. However, theoretical analyses of these models remain scant. In this work, we develop theoretical underpinnings for these models and use our insights to improve the performance of existing models. We first develop Meta-ARVDM, a unified framework of ARVDMs that subsumes most existing methods. Using Meta-ARVDM, we analyze the KL-divergence between the videos generated by Meta-ARVDM and the true videos. Our analysis uncovers two important phenomena inherent to ARVDM -- error accumulation and memory bottleneck. By deriving an information-theoretic impossibility result, we show that the memory bottleneck phenomenon cannot be avoided. To mitigate the memory bottleneck, we design various network structures to explicitly use more past frames. We also achieve a significantly improved trade-off between the mitigation of the memory bottleneck and the inference efficiency by compressing the frames. Experimental results on DMLab and Minecraft validate the efficacy of our methods. Our experiments also demonstrate a Pareto-frontier between the error accumulation and memory bottleneck across different methods.

Summary

AI-Generated Summary

PDF52March 18, 2025