A Decodificação Colaborativa Torna a Modelagem Auto-Regressiva Visual Mais Eficiente
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient
November 26, 2024
Autores: Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI
Resumo
No campo em rápida evolução da geração de imagens, a modelagem Visual Auto-Regressive (VAR) tem recebido considerável atenção por sua abordagem inovadora de previsão em larga escala. Esse paradigma oferece melhorias substanciais em eficiência, escalabilidade e generalização sem treinamento. No entanto, a natureza inerentemente de grosseiro a fino do VAR introduz uma sequência prolongada de tokens, resultando em um consumo de memória proibitivo e redundâncias computacionais. Para lidar com esses gargalos, propomos o Decodificador Colaborativo (CoDe), uma estratégia de decodificação eficiente e inovadora adaptada para o framework VAR. O CoDe se baseia em duas observações críticas: a redução substancial das demandas de parâmetros em escalas maiores e os padrões exclusivos de geração em diferentes escalas. Com base nesses insights, dividimos o processo de inferência em múltiplas escalas em uma colaboração contínua entre um modelo grande e um modelo pequeno. O modelo grande atua como o 'elaborador', especializando-se na geração de conteúdo de baixa frequência em escalas menores, enquanto o modelo menor atua como o 'refinador', focando exclusivamente na previsão de detalhes de alta frequência em escalas maiores. Essa colaboração resulta em eficiência notável com impacto mínimo na qualidade: o CoDe alcança uma aceleração de 1,7 vezes, reduz o uso de memória em cerca de 50% e preserva a qualidade da imagem com apenas um aumento FID negligenciável de 1,95 para 1,98. Quando os passos de elaboração são ainda mais reduzidos, o CoDe pode alcançar uma impressionante taxa de aceleração de 2,9 vezes, atingindo 41 imagens/s em resolução de 256x256 em uma única GPU NVIDIA 4090, mantendo um FID louvável de 2,27. O código está disponível em https://github.com/czg1225/CoDe
English
In the rapidly advancing field of image generation, Visual Auto-Regressive
(VAR) modeling has garnered considerable attention for its innovative
next-scale prediction approach. This paradigm offers substantial improvements
in efficiency, scalability, and zero-shot generalization. Yet, the inherently
coarse-to-fine nature of VAR introduces a prolonged token sequence, leading to
prohibitive memory consumption and computational redundancies. To address these
bottlenecks, we propose Collaborative Decoding (CoDe), a novel efficient
decoding strategy tailored for the VAR framework. CoDe capitalizes on two
critical observations: the substantially reduced parameter demands at larger
scales and the exclusive generation patterns across different scales. Based on
these insights, we partition the multi-scale inference process into a seamless
collaboration between a large model and a small model. The large model serves
as the 'drafter', specializing in generating low-frequency content at smaller
scales, while the smaller model serves as the 'refiner', solely focusing on
predicting high-frequency details at larger scales. This collaboration yields
remarkable efficiency with minimal impact on quality: CoDe achieves a 1.7x
speedup, slashes memory usage by around 50%, and preserves image quality with
only a negligible FID increase from 1.95 to 1.98. When drafting steps are
further decreased, CoDe can achieve an impressive 2.9x acceleration ratio,
reaching 41 images/s at 256x256 resolution on a single NVIDIA 4090 GPU, while
preserving a commendable FID of 2.27. The code is available at
https://github.com/czg1225/CoDeSummary
AI-Generated Summary