Sobre Límites Computacionales y Criterios Probablemente Eficientes de Modelos Autoregresivos Visuales: Un Análisis de Complejidad Detallado
On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis
January 8, 2025
Autores: Yekun Ke, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song
cs.AI
Resumen
Recientemente, los Modelos Visuales Autoregresivos (VAR) introdujeron un avance revolucionario en el campo de la generación de imágenes, ofreciendo un enfoque escalable a través de un paradigma de "predicción de próxima escala" de grueso a fino. Sin embargo, el algoritmo de vanguardia de los modelos VAR en [Tian, Jiang, Yuan, Peng y Wang, NeurIPS 2024] requiere un tiempo de O(n^4), lo cual es computacionalmente ineficiente. En este trabajo, analizamos los límites computacionales y los criterios de eficiencia de los Modelos VAR a través de una lente de complejidad detallada. Nuestra contribución clave es identificar las condiciones bajo las cuales los cálculos VAR pueden lograr una complejidad temporal subcuadrática. Específicamente, establecemos un umbral crítico para la norma de las matrices de entrada utilizadas en los mecanismos de atención VAR. Por encima de este umbral, asumiendo la Hipótesis del Tiempo Exponencial Fuerte (SETH) de la teoría de complejidad detallada, un algoritmo de tiempo subcuártico para los modelos VAR es imposible. Para respaldar nuestros hallazgos teóricos, presentamos construcciones eficientes que aprovechan aproximaciones de rango bajo que se alinean con los criterios derivados. Este trabajo inicia el estudio de la eficiencia computacional del modelo VAR desde una perspectiva teórica. Nuestra técnica arrojará luz sobre el avance en la generación de imágenes escalables y eficientes en los marcos VAR.
English
Recently, Visual Autoregressive (VAR) Models introduced a
groundbreaking advancement in the field of image generation, offering a
scalable approach through a coarse-to-fine "next-scale prediction" paradigm.
However, the state-of-the-art algorithm of VAR models in [Tian,
Jiang, Yuan, Peng and Wang, NeurIPS 2024] takes O(n^4) time, which is
computationally inefficient. In this work, we analyze the computational limits
and efficiency criteria of VAR Models through a fine-grained
complexity lens. Our key contribution is identifying the conditions under which
VAR computations can achieve sub-quadratic time complexity.
Specifically, we establish a critical threshold for the norm of input matrices
used in VAR attention mechanisms. Above this threshold, assuming the
Strong Exponential Time Hypothesis (SETH) from fine-grained
complexity theory, a sub-quartic time algorithm for VAR models is
impossible. To substantiate our theoretical findings, we present efficient
constructions leveraging low-rank approximations that align with the derived
criteria. This work initiates the study of the computational efficiency of the
VAR model from a theoretical perspective. Our technique will shed
light on advancing scalable and efficient image generation in VAR
frameworks.Summary
AI-Generated Summary