ChatPaper.aiChatPaper

О вычислительных ограничениях и доказуемо эффективных критериях визуальных авторегрессионных моделей: анализ сложности с тонкой детализацией.

On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

January 8, 2025
Авторы: Yekun Ke, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song
cs.AI

Аннотация

Недавно модели визуальной авторегрессии (VAR) представили прорывное достижение в области генерации изображений, предлагая масштабируемый подход через грубо-детальную парадигму "предсказание следующего масштаба". Однако современный алгоритм моделей VAR в [Tian, Jiang, Yuan, Peng и Wang, NeurIPS 2024] требует времени O(n^4), что является вычислительно неэффективным. В данной работе мы анализируем вычислительные ограничения и критерии эффективности моделей VAR через призму детальной сложности. Нашим ключевым вкладом является выявление условий, при которых вычисления VAR могут достигать субквадратичной сложности по времени. Конкретно, мы устанавливаем критический порог для нормы входных матриц, используемых в механизмах внимания VAR. Выше этого порога, предполагая Гипотезу о сильном экспоненциальном времени (SETH) из теории детальной сложности, субквадратичный алгоритм времени для моделей VAR невозможен. Для подтверждения наших теоретических выводов мы представляем эффективные конструкции, использующие низкоранговые аппроксимации, соответствующие полученным критериям. Эта работа инициирует изучение вычислительной эффективности модели VAR с теоретической точки зрения. Наш метод прольет свет на продвижение масштабируемой и эффективной генерации изображений в рамках VAR.
English
Recently, Visual Autoregressive (VAR) Models introduced a groundbreaking advancement in the field of image generation, offering a scalable approach through a coarse-to-fine "next-scale prediction" paradigm. However, the state-of-the-art algorithm of VAR models in [Tian, Jiang, Yuan, Peng and Wang, NeurIPS 2024] takes O(n^4) time, which is computationally inefficient. In this work, we analyze the computational limits and efficiency criteria of VAR Models through a fine-grained complexity lens. Our key contribution is identifying the conditions under which VAR computations can achieve sub-quadratic time complexity. Specifically, we establish a critical threshold for the norm of input matrices used in VAR attention mechanisms. Above this threshold, assuming the Strong Exponential Time Hypothesis (SETH) from fine-grained complexity theory, a sub-quartic time algorithm for VAR models is impossible. To substantiate our theoretical findings, we present efficient constructions leveraging low-rank approximations that align with the derived criteria. This work initiates the study of the computational efficiency of the VAR model from a theoretical perspective. Our technique will shed light on advancing scalable and efficient image generation in VAR frameworks.

Summary

AI-Generated Summary

PDF142January 10, 2025