ChatPaper.aiChatPaper

AR-RAG: 이미지 생성을 위한 자기회귀적 검색 증강

AR-RAG: Autoregressive Retrieval Augmentation for Image Generation

June 8, 2025
저자: Jingyuan Qi, Zhiyang Xu, Qifan Wang, Lifu Huang
cs.AI

초록

우리는 패치 수준에서 k-최근접 이웃 검색을 자기회귀적으로 통합함으로써 이미지 생성을 향상시키는 새로운 패러다임인 자기회귀적 검색 증강(AR-RAG)을 소개한다. 기존 방법들이 생성 전 단일 정적 검색을 수행하고 전체 생성을 고정된 참조 이미지에 조건화하는 것과 달리, AR-RAG는 각 생성 단계에서 상황 인식 검색을 수행하며, 이전에 생성된 패치를 쿼리로 사용하여 가장 관련성 높은 패치 수준의 시각적 참조를 검색하고 통합한다. 이를 통해 모델이 진화하는 생성 요구에 대응할 수 있으면서도 기존 방법에서 흔히 발생하는 문제들(예: 과도한 복사, 스타일 편향 등)을 피할 수 있다. AR-RAG를 구현하기 위해, 우리는 두 가지 병렬 프레임워크를 제안한다: (1) 디코딩에서의 분포 증강(DAiD)은 모델이 예측한 패치의 분포와 검색된 패치의 분포를 직접 병합하는 훈련이 필요 없는 플러그 앤 플레이 디코딩 전략이며, (2) 디코딩에서의 특징 증강(FAiD)은 다중 스케일 컨볼루션 연산을 통해 검색된 패치의 특징을 점진적으로 부드럽게 하고 이를 활용하여 이미지 생성 과정을 증강하는 파라미터 효율적인 미세 조정 방법이다. 우리는 AR-RAG의 효과를 Midjourney-30K, GenEval, DPG-Bench 등 널리 사용되는 벤치마크에서 검증하며, 최첨단 이미지 생성 모델 대비 상당한 성능 향상을 입증한다.
English
We introduce Autoregressive Retrieval Augmentation (AR-RAG), a novel paradigm that enhances image generation by autoregressively incorporating knearest neighbor retrievals at the patch level. Unlike prior methods that perform a single, static retrieval before generation and condition the entire generation on fixed reference images, AR-RAG performs context-aware retrievals at each generation step, using prior-generated patches as queries to retrieve and incorporate the most relevant patch-level visual references, enabling the model to respond to evolving generation needs while avoiding limitations (e.g., over-copying, stylistic bias, etc.) prevalent in existing methods. To realize AR-RAG, we propose two parallel frameworks: (1) Distribution-Augmentation in Decoding (DAiD), a training-free plug-and-use decoding strategy that directly merges the distribution of model-predicted patches with the distribution of retrieved patches, and (2) Feature-Augmentation in Decoding (FAiD), a parameter-efficient fine-tuning method that progressively smooths the features of retrieved patches via multi-scale convolution operations and leverages them to augment the image generation process. We validate the effectiveness of AR-RAG on widely adopted benchmarks, including Midjourney-30K, GenEval and DPG-Bench, demonstrating significant performance gains over state-of-the-art image generation models.
PDF262June 17, 2025