AR-RAG: Aumento Autoregresivo de Recuperación para la Generación de Imágenes
AR-RAG: Autoregressive Retrieval Augmentation for Image Generation
June 8, 2025
Autores: Jingyuan Qi, Zhiyang Xu, Qifan Wang, Lifu Huang
cs.AI
Resumen
Presentamos Autoregressive Retrieval Augmentation (AR-RAG), un paradigma novedoso que mejora la generación de imágenes al incorporar de manera autoregresiva recuperaciones de vecinos más cercanos a nivel de parche. A diferencia de métodos anteriores que realizan una única recuperación estática antes de la generación y condicionan toda la generación en imágenes de referencia fijas, AR-RAG realiza recuperaciones conscientes del contexto en cada paso de generación, utilizando parches generados previamente como consultas para recuperar e incorporar las referencias visuales más relevantes a nivel de parche, permitiendo que el modelo responda a las necesidades evolutivas de la generación mientras evita limitaciones (por ejemplo, copia excesiva, sesgo estilístico, etc.) prevalentes en métodos existentes. Para implementar AR-RAG, proponemos dos marcos paralelos: (1) Distribution-Augmentation in Decoding (DAiD), una estrategia de decodificación plug-and-use sin necesidad de entrenamiento que fusiona directamente la distribución de parches predichos por el modelo con la distribución de parches recuperados, y (2) Feature-Augmentation in Decoding (FAiD), un método de ajuste fino eficiente en parámetros que suaviza progresivamente las características de los parches recuperados mediante operaciones de convolución multi-escala y las aprovecha para mejorar el proceso de generación de imágenes. Validamos la efectividad de AR-RAG en benchmarks ampliamente adoptados, incluyendo Midjourney-30K, GenEval y DPG-Bench, demostrando mejoras significativas en el rendimiento sobre los modelos de generación de imágenes más avanzados.
English
We introduce Autoregressive Retrieval Augmentation (AR-RAG), a novel paradigm
that enhances image generation by autoregressively incorporating knearest
neighbor retrievals at the patch level. Unlike prior methods that perform a
single, static retrieval before generation and condition the entire generation
on fixed reference images, AR-RAG performs context-aware retrievals at each
generation step, using prior-generated patches as queries to retrieve and
incorporate the most relevant patch-level visual references, enabling the model
to respond to evolving generation needs while avoiding limitations (e.g.,
over-copying, stylistic bias, etc.) prevalent in existing methods. To realize
AR-RAG, we propose two parallel frameworks: (1) Distribution-Augmentation in
Decoding (DAiD), a training-free plug-and-use decoding strategy that directly
merges the distribution of model-predicted patches with the distribution of
retrieved patches, and (2) Feature-Augmentation in Decoding (FAiD), a
parameter-efficient fine-tuning method that progressively smooths the features
of retrieved patches via multi-scale convolution operations and leverages them
to augment the image generation process. We validate the effectiveness of
AR-RAG on widely adopted benchmarks, including Midjourney-30K, GenEval and
DPG-Bench, demonstrating significant performance gains over state-of-the-art
image generation models.