AR-RAG: Aumentação Autoregressiva de Recuperação para Geração de Imagens
AR-RAG: Autoregressive Retrieval Augmentation for Image Generation
June 8, 2025
Autores: Jingyuan Qi, Zhiyang Xu, Qifan Wang, Lifu Huang
cs.AI
Resumo
Apresentamos o Autoregressive Retrieval Augmentation (AR-RAG), um novo paradigma que aprimora a geração de imagens ao incorporar autoregressivamente recuperações de k-vizinhos mais próximos no nível de patches. Diferente de métodos anteriores que realizam uma única recuperação estática antes da geração e condicionam toda a geração em imagens de referência fixas, o AR-RAG realiza recuperações contextualmente conscientes em cada etapa de geração, utilizando patches previamente gerados como consultas para recuperar e incorporar as referências visuais mais relevantes no nível de patches, permitindo que o modelo responda às necessidades evolutivas da geração enquanto evita limitações (por exemplo, cópia excessiva, viés estilístico, etc.) prevalecentes em métodos existentes. Para realizar o AR-RAG, propomos dois frameworks paralelos: (1) Distribution-Augmentation in Decoding (DAiD), uma estratégia de decodificação plug-and-play sem treinamento que mescla diretamente a distribuição de patches previstos pelo modelo com a distribuição de patches recuperados, e (2) Feature-Augmentation in Decoding (FAiD), um método de ajuste fino eficiente em parâmetros que suaviza progressivamente as características dos patches recuperados por meio de operações de convolução multi-escala e as utiliza para aprimorar o processo de geração de imagens. Validamos a eficácia do AR-RAG em benchmarks amplamente adotados, incluindo Midjourney-30K, GenEval e DPG-Bench, demonstrando ganhos significativos de desempenho em relação aos modelos de geração de imagens state-of-the-art.
English
We introduce Autoregressive Retrieval Augmentation (AR-RAG), a novel paradigm
that enhances image generation by autoregressively incorporating knearest
neighbor retrievals at the patch level. Unlike prior methods that perform a
single, static retrieval before generation and condition the entire generation
on fixed reference images, AR-RAG performs context-aware retrievals at each
generation step, using prior-generated patches as queries to retrieve and
incorporate the most relevant patch-level visual references, enabling the model
to respond to evolving generation needs while avoiding limitations (e.g.,
over-copying, stylistic bias, etc.) prevalent in existing methods. To realize
AR-RAG, we propose two parallel frameworks: (1) Distribution-Augmentation in
Decoding (DAiD), a training-free plug-and-use decoding strategy that directly
merges the distribution of model-predicted patches with the distribution of
retrieved patches, and (2) Feature-Augmentation in Decoding (FAiD), a
parameter-efficient fine-tuning method that progressively smooths the features
of retrieved patches via multi-scale convolution operations and leverages them
to augment the image generation process. We validate the effectiveness of
AR-RAG on widely adopted benchmarks, including Midjourney-30K, GenEval and
DPG-Bench, demonstrating significant performance gains over state-of-the-art
image generation models.