Bilderzeugung mit multimodalen Sprachmodellen
Generating Images with Multimodal Language Models
May 26, 2023
Autoren: Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov
cs.AI
Zusammenfassung
Wir schlagen eine Methode vor, um eingefrorene textbasierte große Sprachmodelle (LLMs) mit vortrainierten Bildencoder- und -decoder-Modellen zu fusionieren, indem wir zwischen ihren Einbettungsräumen abbilden. Unser Modell zeigt eine breite Palette multimodaler Fähigkeiten: Bildabruf, Erzeugung neuer Bilder und multimodaler Dialog. Unser Ansatz ist der erste, der in der Lage ist, auf beliebig verschachtelte Bild- und Texteingaben zu konditionieren, um kohärente Bild- (und Text-)Ausgaben zu erzeugen. Um eine starke Leistung bei der Bildgenerierung zu erreichen, schlagen wir ein effizientes Abbildungsnetzwerk vor, das das LLM an ein gebrauchsfertiges Text-zu-Bild-Generierungsmodell bindet. Dieses Abbildungsnetzwerk übersetzt verborgene Textrepräsentationen in den Einbettungsraum der visuellen Modelle, wodurch wir die starken Textrepräsentationen des LLM für visuelle Ausgaben nutzen können. Unser Ansatz übertrifft Baseline-Generierungsmodelle bei Aufgaben mit längeren und komplexeren Texten. Neben der Erzeugung neuer Bilder ist unser Modell auch in der Lage, Bilder aus einem vordefinierten Datensatz abzurufen, und entscheidet zur Inferenzzeit, ob es abrufen oder generieren soll. Dies geschieht mit einem gelernten Entscheidungsmodul, das auf den verborgenen Repräsentationen des LLM konditioniert. Unser Modell zeigt im Vergleich zu früheren multimodalen Sprachmodellen ein breiteres Spektrum an Fähigkeiten. Es kann Bild- und Texteingaben verarbeiten und abgerufene Bilder, generierte Bilder und generierte Texte erzeugen – und übertrifft dabei nicht-LLM-basierte Generierungsmodelle in mehreren Text-zu-Bild-Aufgaben, die Kontextabhängigkeit messen.
English
We propose a method to fuse frozen text-only large language models (LLMs)
with pre-trained image encoder and decoder models, by mapping between their
embedding spaces. Our model demonstrates a wide suite of multimodal
capabilities: image retrieval, novel image generation, and multimodal dialogue.
Ours is the first approach capable of conditioning on arbitrarily interleaved
image and text inputs to generate coherent image (and text) outputs. To achieve
strong performance on image generation, we propose an efficient mapping network
to ground the LLM to an off-the-shelf text-to-image generation model. This
mapping network translates hidden representations of text into the embedding
space of the visual models, enabling us to leverage the strong text
representations of the LLM for visual outputs. Our approach outperforms
baseline generation models on tasks with longer and more complex language. In
addition to novel image generation, our model is also capable of image
retrieval from a prespecified dataset, and decides whether to retrieve or
generate at inference time. This is done with a learnt decision module which
conditions on the hidden representations of the LLM. Our model exhibits a wider
range of capabilities compared to prior multimodal language models. It can
process image-and-text inputs, and produce retrieved images, generated images,
and generated text -- outperforming non-LLM based generation models across
several text-to-image tasks that measure context dependence.