Sur les limites computationnelles et les critères de performance prouvée des modèles autorégressifs visuels : une analyse de complexité fine.
On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis
January 8, 2025
Auteurs: Yekun Ke, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song
cs.AI
Résumé
Récemment, les modèles visuels autorégressifs (VAR) ont introduit une avancée révolutionnaire dans le domaine de la génération d'images, offrant une approche évolutive à travers un paradigme de prédiction "prochaine échelle" grossière à fine. Cependant, l'algorithme de pointe des modèles VAR dans [Tian, Jiang, Yuan, Peng et Wang, NeurIPS 2024] prend un temps en O(n^4), ce qui est inefficace du point de vue computationnel. Dans ce travail, nous analysons les limites computationnelles et les critères d'efficacité des modèles VAR à travers une lentille de complexité fine. Notre contribution principale est d'identifier les conditions dans lesquelles les calculs VAR peuvent atteindre une complexité temporelle sous-quadratique. Plus précisément, nous établissons un seuil critique pour la norme des matrices d'entrée utilisées dans les mécanismes d'attention VAR. Au-dessus de ce seuil, en supposant l'Hypothèse du Temps Exponentiel Fort (SETH) de la théorie de la complexité fine, un algorithme temporel sous-quartique pour les modèles VAR est impossible. Pour étayer nos résultats théoriques, nous présentons des constructions efficaces exploitant des approximations de bas rang qui correspondent aux critères dérivés. Ce travail initie l'étude de l'efficacité computationnelle du modèle VAR d'un point de vue théorique. Notre technique éclairera les progrès de la génération d'images évolutive et efficace dans les cadres VAR.
English
Recently, Visual Autoregressive (VAR) Models introduced a
groundbreaking advancement in the field of image generation, offering a
scalable approach through a coarse-to-fine "next-scale prediction" paradigm.
However, the state-of-the-art algorithm of VAR models in [Tian,
Jiang, Yuan, Peng and Wang, NeurIPS 2024] takes O(n^4) time, which is
computationally inefficient. In this work, we analyze the computational limits
and efficiency criteria of VAR Models through a fine-grained
complexity lens. Our key contribution is identifying the conditions under which
VAR computations can achieve sub-quadratic time complexity.
Specifically, we establish a critical threshold for the norm of input matrices
used in VAR attention mechanisms. Above this threshold, assuming the
Strong Exponential Time Hypothesis (SETH) from fine-grained
complexity theory, a sub-quartic time algorithm for VAR models is
impossible. To substantiate our theoretical findings, we present efficient
constructions leveraging low-rank approximations that align with the derived
criteria. This work initiates the study of the computational efficiency of the
VAR model from a theoretical perspective. Our technique will shed
light on advancing scalable and efficient image generation in VAR
frameworks.Summary
AI-Generated Summary