ChatPaper.aiChatPaper

통합 텍스트-이미지 생성 및 검색

Unified Text-to-Image Generation and Retrieval

June 9, 2024
저자: Leigang Qu, Haochuan Li, Tan Wang, Wenjie Wang, Yongqi Li, Liqiang Nie, Tat-Seng Chua
cs.AI

초록

인간이 어떻게 효율적이고 효과적으로 이미지를 획득할 수 있는지는 항상 중요한 질문으로 남아왔다. 일반적인 해결책은 텍스트 쿼리가 주어졌을 때 기존 데이터베이스에서 텍스트-이미지 검색을 수행하는 것이지만, 제한된 데이터베이스는 일반적으로 창의성이 부족하다. 반면, 최근 텍스트-이미지 생성 분야의 획기적인 발전으로 인해 화려하고 다양한 시각적 콘텐츠를 생성할 수 있게 되었지만, 지식 집약적인 이미지를 합성하는 데는 여전히 어려움을 겪고 있다. 본 연구에서는 텍스트-이미지 생성과 검색 간의 관계를 재고하고, 멀티모달 대형 언어 모델(MLLMs)의 맥락에서 통합 프레임워크를 제안한다. 구체적으로, 먼저 MLLMs의 내재적 판별 능력을 탐구하고, 학습 없이 검색을 수행할 수 있는 생성적 검색 방법을 소개한다. 이후, 생성과 검색을 자기회귀적 생성 방식으로 통합하고, 텍스트 쿼리에 대한 응답으로 생성된 이미지와 검색된 이미지 중 가장 잘 맞는 것을 선택하기 위한 자율적 결정 모듈을 제안한다. 또한, 창의적 및 지식 집약적 영역을 포함한 TIGeR-Bench 벤치마크를 구축하여 통합 텍스트-이미지 생성 및 검색의 평가를 표준화한다. TIGeR-Bench와 두 검색 벤치마크인 Flickr30K 및 MS-COCO에서의 광범위한 실험 결과는 우리가 제안한 방법의 우수성과 효과성을 입증한다.
English
How humans can efficiently and effectively acquire images has always been a perennial question. A typical solution is text-to-image retrieval from an existing database given the text query; however, the limited database typically lacks creativity. By contrast, recent breakthroughs in text-to-image generation have made it possible to produce fancy and diverse visual content, but it faces challenges in synthesizing knowledge-intensive images. In this work, we rethink the relationship between text-to-image generation and retrieval and propose a unified framework in the context of Multimodal Large Language Models (MLLMs). Specifically, we first explore the intrinsic discriminative abilities of MLLMs and introduce a generative retrieval method to perform retrieval in a training-free manner. Subsequently, we unify generation and retrieval in an autoregressive generation way and propose an autonomous decision module to choose the best-matched one between generated and retrieved images as the response to the text query. Additionally, we construct a benchmark called TIGeR-Bench, including creative and knowledge-intensive domains, to standardize the evaluation of unified text-to-image generation and retrieval. Extensive experimental results on TIGeR-Bench and two retrieval benchmarks, i.e., Flickr30K and MS-COCO, demonstrate the superiority and effectiveness of our proposed method.

Summary

AI-Generated Summary

PDF160December 8, 2024