ChatPaper.aiChatPaper

Sobre Límites Computacionales y Criterios Probablemente Eficientes de Modelos Autoregresivos Visuales: Un Análisis de Complejidad Detallado

On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

January 8, 2025
Autores: Yekun Ke, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song
cs.AI

Resumen

Recientemente, los Modelos Visuales Autoregresivos (VAR) introdujeron un avance revolucionario en el campo de la generación de imágenes, ofreciendo un enfoque escalable a través de un paradigma de "predicción de próxima escala" de grueso a fino. Sin embargo, el algoritmo de vanguardia de los modelos VAR en [Tian, Jiang, Yuan, Peng y Wang, NeurIPS 2024] requiere un tiempo de O(n^4), lo cual es computacionalmente ineficiente. En este trabajo, analizamos los límites computacionales y los criterios de eficiencia de los Modelos VAR a través de una lente de complejidad detallada. Nuestra contribución clave es identificar las condiciones bajo las cuales los cálculos VAR pueden lograr una complejidad temporal subcuadrática. Específicamente, establecemos un umbral crítico para la norma de las matrices de entrada utilizadas en los mecanismos de atención VAR. Por encima de este umbral, asumiendo la Hipótesis del Tiempo Exponencial Fuerte (SETH) de la teoría de complejidad detallada, un algoritmo de tiempo subcuártico para los modelos VAR es imposible. Para respaldar nuestros hallazgos teóricos, presentamos construcciones eficientes que aprovechan aproximaciones de rango bajo que se alinean con los criterios derivados. Este trabajo inicia el estudio de la eficiencia computacional del modelo VAR desde una perspectiva teórica. Nuestra técnica arrojará luz sobre el avance en la generación de imágenes escalables y eficientes en los marcos VAR.
English
Recently, Visual Autoregressive (VAR) Models introduced a groundbreaking advancement in the field of image generation, offering a scalable approach through a coarse-to-fine "next-scale prediction" paradigm. However, the state-of-the-art algorithm of VAR models in [Tian, Jiang, Yuan, Peng and Wang, NeurIPS 2024] takes O(n^4) time, which is computationally inefficient. In this work, we analyze the computational limits and efficiency criteria of VAR Models through a fine-grained complexity lens. Our key contribution is identifying the conditions under which VAR computations can achieve sub-quadratic time complexity. Specifically, we establish a critical threshold for the norm of input matrices used in VAR attention mechanisms. Above this threshold, assuming the Strong Exponential Time Hypothesis (SETH) from fine-grained complexity theory, a sub-quartic time algorithm for VAR models is impossible. To substantiate our theoretical findings, we present efficient constructions leveraging low-rank approximations that align with the derived criteria. This work initiates the study of the computational efficiency of the VAR model from a theoretical perspective. Our technique will shed light on advancing scalable and efficient image generation in VAR frameworks.

Summary

AI-Generated Summary

PDF142January 10, 2025