ChatPaper.aiChatPaper

Unificatie van Tekst-naar-Beeld Generatie en Retrieval

Unified Text-to-Image Generation and Retrieval

June 9, 2024
Auteurs: Leigang Qu, Haochuan Li, Tan Wang, Wenjie Wang, Yongqi Li, Liqiang Nie, Tat-Seng Chua
cs.AI

Samenvatting

Hoe mensen efficiënt en effectief afbeeldingen kunnen verwerven, is altijd een terugkerende vraag geweest. Een typische oplossing is tekst-naar-beeldretrieval uit een bestaande database op basis van een tekstquery; echter, de beperkte database mist meestal creativiteit. Daarentegen hebben recente doorbraken in tekst-naar-beeldgeneratie het mogelijk gemaakt om fantasierijke en diverse visuele inhoud te produceren, maar dit stuit op uitdagingen bij het synthetiseren van kennisintensieve afbeeldingen. In dit werk heroverwegen we de relatie tussen tekst-naar-beeldgeneratie en retrieval en stellen we een geïntegreerd framework voor in de context van Multimodale Grote Taalmodellen (MLLMs). Specifiek onderzoeken we eerst de intrinsieke discriminerende vermogens van MLLMs en introduceren we een generatieve retrievalmethode om retrieval uit te voeren op een trainingsvrije manier. Vervolgens integreren we generatie en retrieval in een autoregressieve generatiewijze en stellen we een autonoom beslissingsmodule voor om de best passende keuze te maken tussen gegenereerde en opgehaalde afbeeldingen als reactie op de tekstquery. Daarnaast construeren we een benchmark genaamd TIGeR-Bench, inclusief creatieve en kennisintensieve domeinen, om de evaluatie van geïntegreerde tekst-naar-beeldgeneratie en retrieval te standaardiseren. Uitgebreide experimentele resultaten op TIGeR-Bench en twee retrievalbenchmarks, namelijk Flickr30K en MS-COCO, demonstreren de superioriteit en effectiviteit van onze voorgestelde methode.
English
How humans can efficiently and effectively acquire images has always been a perennial question. A typical solution is text-to-image retrieval from an existing database given the text query; however, the limited database typically lacks creativity. By contrast, recent breakthroughs in text-to-image generation have made it possible to produce fancy and diverse visual content, but it faces challenges in synthesizing knowledge-intensive images. In this work, we rethink the relationship between text-to-image generation and retrieval and propose a unified framework in the context of Multimodal Large Language Models (MLLMs). Specifically, we first explore the intrinsic discriminative abilities of MLLMs and introduce a generative retrieval method to perform retrieval in a training-free manner. Subsequently, we unify generation and retrieval in an autoregressive generation way and propose an autonomous decision module to choose the best-matched one between generated and retrieved images as the response to the text query. Additionally, we construct a benchmark called TIGeR-Bench, including creative and knowledge-intensive domains, to standardize the evaluation of unified text-to-image generation and retrieval. Extensive experimental results on TIGeR-Bench and two retrieval benchmarks, i.e., Flickr30K and MS-COCO, demonstrate the superiority and effectiveness of our proposed method.
PDF160December 8, 2024