Samenwerkend decoderen maakt visuele auto-regressieve modellering efficiënt.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient
November 26, 2024
Auteurs: Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI
Samenvatting
In het snel evoluerende domein van beeldgeneratie heeft Visual Auto-Regressive (VAR) modellering aanzienlijke aandacht gekregen vanwege zijn innovatieve voorspellingsbenadering op de volgende schaal. Dit paradigma biedt aanzienlijke verbeteringen in efficiëntie, schaalbaarheid en generalisatie zonder training. Toch leidt de inherent grof-naar-fijn aard van VAR tot een langere reeks tokens, wat resulteert in een ontoelaatbaar geheugenverbruik en computationele redundanties. Om deze knelpunten aan te pakken, stellen we Collaborative Decoding (CoDe) voor, een nieuw efficiënte decodeerstrategie op maat gemaakt voor het VAR-framework. CoDe maakt gebruik van twee cruciale observaties: de aanzienlijk verminderde parametervereisten op grotere schalen en de exclusieve generatiepatronen over verschillende schalen. Op basis van deze inzichten verdelen we het multi-schaal inferentieproces in een naadloze samenwerking tussen een groot model en een klein model. Het grote model fungeert als de 'ontwerper', gespecialiseerd in het genereren van laagfrequente inhoud op kleinere schalen, terwijl het kleinere model fungeert als de 'verfijner', dat zich uitsluitend richt op het voorspellen van hoogfrequente details op grotere schalen. Deze samenwerking leidt tot opmerkelijke efficiëntie met minimale invloed op de kwaliteit: CoDe behaalt een versnelling van 1,7x, vermindert het geheugengebruik met ongeveer 50% en behoudt de beeldkwaliteit met slechts een verwaarloosbare FID-toename van 1,95 naar 1,98. Wanneer het aantal ontwerpstappen verder wordt verminderd, kan CoDe een indrukwekkende versnelling van 2,9x bereiken, met 41 beelden/s bij een resolutie van 256x256 op een enkele NVIDIA 4090 GPU, terwijl een bewonderenswaardige FID van 2,27 behouden blijft. De code is beschikbaar op https://github.com/czg1225/CoDe
English
In the rapidly advancing field of image generation, Visual Auto-Regressive
(VAR) modeling has garnered considerable attention for its innovative
next-scale prediction approach. This paradigm offers substantial improvements
in efficiency, scalability, and zero-shot generalization. Yet, the inherently
coarse-to-fine nature of VAR introduces a prolonged token sequence, leading to
prohibitive memory consumption and computational redundancies. To address these
bottlenecks, we propose Collaborative Decoding (CoDe), a novel efficient
decoding strategy tailored for the VAR framework. CoDe capitalizes on two
critical observations: the substantially reduced parameter demands at larger
scales and the exclusive generation patterns across different scales. Based on
these insights, we partition the multi-scale inference process into a seamless
collaboration between a large model and a small model. The large model serves
as the 'drafter', specializing in generating low-frequency content at smaller
scales, while the smaller model serves as the 'refiner', solely focusing on
predicting high-frequency details at larger scales. This collaboration yields
remarkable efficiency with minimal impact on quality: CoDe achieves a 1.7x
speedup, slashes memory usage by around 50%, and preserves image quality with
only a negligible FID increase from 1.95 to 1.98. When drafting steps are
further decreased, CoDe can achieve an impressive 2.9x acceleration ratio,
reaching 41 images/s at 256x256 resolution on a single NVIDIA 4090 GPU, while
preserving a commendable FID of 2.27. The code is available at
https://github.com/czg1225/CoDeSummary
AI-Generated Summary