Vereinigte Text-zu-Bild Generierung und Abruf
Unified Text-to-Image Generation and Retrieval
June 9, 2024
Autoren: Leigang Qu, Haochuan Li, Tan Wang, Wenjie Wang, Yongqi Li, Liqiang Nie, Tat-Seng Chua
cs.AI
Zusammenfassung
Wie Menschen Bilder effizient und effektiv erwerben können, war schon immer eine grundlegende Frage. Eine typische Lösung ist die Text-zu-Bild-Suche in einer vorhandenen Datenbank anhand der Textabfrage; jedoch fehlt es der begrenzten Datenbank in der Regel an Kreativität. Im Gegensatz dazu haben jüngste Durchbrüche in der Text-zu-Bild-Erzeugung es möglich gemacht, ausgefallene und vielfältige visuelle Inhalte zu produzieren, aber es gibt Herausforderungen bei der Synthese von wissensintensiven Bildern. In dieser Arbeit überdenken wir das Verhältnis zwischen Text-zu-Bild-Erzeugung und -Suche und schlagen einen vereinheitlichten Rahmen im Kontext von Multimodalen Großen Sprachmodellen (MLLMs) vor. Speziell untersuchen wir zunächst die intrinsischen diskriminativen Fähigkeiten von MLLMs und führen eine generative Suchmethode ein, um die Suche auf eine trainingsfreie Weise durchzuführen. Anschließend vereinen wir Erzeugung und Suche auf eine autoregressive Weise und schlagen ein autonomes Entscheidungsmodul vor, um das am besten passende Bild zwischen erzeugten und abgerufenen Bildern als Antwort auf die Textabfrage auszuwählen. Darüber hinaus erstellen wir eine Benchmark namens TIGeR-Bench, die kreative und wissensintensive Bereiche umfasst, um die Bewertung der vereinheitlichten Text-zu-Bild-Erzeugung und -Suche zu standardisieren. Umfangreiche experimentelle Ergebnisse auf TIGeR-Bench und zwei Such-Benchmarks, nämlich Flickr30K und MS-COCO, belegen die Überlegenheit und Wirksamkeit unserer vorgeschlagenen Methode.
English
How humans can efficiently and effectively acquire images has always been a
perennial question. A typical solution is text-to-image retrieval from an
existing database given the text query; however, the limited database typically
lacks creativity. By contrast, recent breakthroughs in text-to-image generation
have made it possible to produce fancy and diverse visual content, but it faces
challenges in synthesizing knowledge-intensive images. In this work, we rethink
the relationship between text-to-image generation and retrieval and propose a
unified framework in the context of Multimodal Large Language Models (MLLMs).
Specifically, we first explore the intrinsic discriminative abilities of MLLMs
and introduce a generative retrieval method to perform retrieval in a
training-free manner. Subsequently, we unify generation and retrieval in an
autoregressive generation way and propose an autonomous decision module to
choose the best-matched one between generated and retrieved images as the
response to the text query. Additionally, we construct a benchmark called
TIGeR-Bench, including creative and knowledge-intensive domains, to standardize
the evaluation of unified text-to-image generation and retrieval. Extensive
experimental results on TIGeR-Bench and two retrieval benchmarks, i.e.,
Flickr30K and MS-COCO, demonstrate the superiority and effectiveness of our
proposed method.Summary
AI-Generated Summary