Parallele autoregressive visuelle GenerierungParallelized Autoregressive Visual Generation
Autoregressive Modelle haben sich als ein leistungsstarker Ansatz für die visuelle Generierung erwiesen, leiden jedoch aufgrund ihres sequenziellen Token-für-Token-Vorhersageprozesses unter langsamer Inferenzgeschwindigkeit. In diesem Papier schlagen wir einen einfachen, aber effektiven Ansatz für die parallelisierte autoregressive visuelle Generierung vor, der die Generierungseffizienz verbessert, während die Vorteile des autoregressiven Modellierens erhalten bleiben. Unser wichtigstes Erkenntnis ist, dass die parallele Generierung von visuellen Tokenabhängigkeiten abhängt - Tokens mit schwachen Abhängigkeiten können parallel generiert werden, während stark abhängige benachbarte Tokens schwer zusammen generiert werden können, da ihre unabhängige Abtastung zu Inkonsistenzen führen kann. Basierend auf dieser Beobachtung entwickeln wir eine parallele Generierungsstrategie, die entfernte Tokens mit schwachen Abhängigkeiten parallel generiert, während die sequenzielle Generierung für stark abhängige lokale Tokens beibehalten wird. Unser Ansatz kann nahtlos in Standard-Autoregressive Modelle integriert werden, ohne die Architektur oder den Tokenizer zu ändern. Experimente auf ImageNet und UCF-101 zeigen, dass unsere Methode eine 3,6-fache Beschleunigung bei vergleichbarer Qualität und bis zu 9,5-fache Beschleunigung bei minimaler Qualitätsverschlechterung bei sowohl Bild- als auch Videogenerierungsaufgaben erreicht. Wir hoffen, dass diese Arbeit zukünftige Forschung in effizienter visueller Generierung und vereinheitlichtem autoregressivem Modellieren inspirieren wird. Projektseite: https://epiphqny.github.io/PAR-project.