Über Rechenlimits und nachweislich effiziente Kriterien von visuellen autoregressiven Modellen: Eine feinkörnige Komplexitätsanalyse

papers.abstract

In jüngster Zeit haben Visual Autoregressive (VAR) Modelle einen bahnbrechenden Fortschritt auf dem Gebiet der Bildgenerierung eingeführt, indem sie einen skalierbaren Ansatz durch ein grob-zu-fein "Next-Scale Prediction"-Paradigma bieten. Die aktuell führende Algorithmus der VAR Modelle in [Tian, Jiang, Yuan, Peng und Wang, NeurIPS 2024] benötigt jedoch eine Rechenzeit von O(n^4), was rechnerisch ineffizient ist. In dieser Arbeit analysieren wir die Rechengrenzen und Effizienzkriterien von VAR Modellen durch eine feinkörnige Komplexitätsbetrachtung. Unser Hauptbeitrag besteht darin, die Bedingungen zu identifizieren, unter denen VAR-Berechnungen eine subquadratische Zeitkomplexität erreichen können. Insbesondere legen wir einen kritischen Schwellenwert für die Norm der Eingabematrizen fest, die in VAR-Aufmerksamkeitsmechanismen verwendet werden. Über diesem Schwellenwert, unter der Annahme der Strong Exponential Time Hypothesis (SETH) aus der feinkörnigen Komplexitätstheorie, ist ein subquartischer Zeitalgorithmus für VAR Modelle unmöglich. Zur Untermauerung unserer theoretischen Erkenntnisse präsentieren wir effiziente Konstruktionen, die auf niedrig-rangigen Approximationen beruhen und mit den abgeleiteten Kriterien übereinstimmen. Diese Arbeit leitet die Untersuchung der Recheneffizienz des VAR Modells aus theoretischer Perspektive ein. Unsere Methode wird dazu beitragen, die skalierbare und effiziente Bildgenerierung in VAR Frameworks voranzutreiben.

English

Recently, Visual Autoregressive (VAR) Models introduced a groundbreaking advancement in the field of image generation, offering a scalable approach through a coarse-to-fine "next-scale prediction" paradigm. However, the state-of-the-art algorithm of VAR models in [Tian, Jiang, Yuan, Peng and Wang, NeurIPS 2024] takes O(n^4) time, which is computationally inefficient. In this work, we analyze the computational limits and efficiency criteria of VAR Models through a fine-grained complexity lens. Our key contribution is identifying the conditions under which VAR computations can achieve sub-quadratic time complexity. Specifically, we establish a critical threshold for the norm of input matrices used in VAR attention mechanisms. Above this threshold, assuming the Strong Exponential Time Hypothesis (SETH) from fine-grained complexity theory, a sub-quartic time algorithm for VAR models is impossible. To substantiate our theoretical findings, we present efficient constructions leveraging low-rank approximations that align with the derived criteria. This work initiates the study of the computational efficiency of the VAR model from a theoretical perspective. Our technique will shed light on advancing scalable and efficient image generation in VAR frameworks.

Über Rechenlimits und nachweislich effiziente Kriterien von visuellen autoregressiven Modellen: Eine feinkörnige Komplexitätsanalyse

On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

papers.abstract

Support