DiffusionGPT: LLM-Gestuurd Tekst-naar-Beeld Generatiesysteem
DiffusionGPT: LLM-Driven Text-to-Image Generation System
January 18, 2024
Auteurs: Jie Qin, Jie Wu, Weifeng Chen, Yuxi Ren, Huixia Li, Hefeng Wu, Xuefeng Xiao, Rui Wang, Shilei Wen
cs.AI
Samenvatting
Diffusiemodellen hebben nieuwe mogelijkheden geopend op het gebied van beeldgeneratie, wat heeft geleid tot een toename van hoogwaardige modellen die worden gedeeld op open-source platforms. Een grote uitdaging blijft echter bestaan in huidige tekst-naar-beeld systemen, die vaak niet in staat zijn om diverse invoer te verwerken of beperkt zijn tot resultaten van een enkel model. Huidige geïntegreerde pogingen vallen vaak in twee orthogonale aspecten: i) het verwerken van diverse prompts in de invoerfase; ii) het activeren van een expertmodel voor de uitvoer. Om het beste van beide werelden te combineren, stellen we DiffusionGPT voor, dat gebruikmaakt van Large Language Models (LLM) om een geïntegreerd generatiesysteem te bieden dat naadloos verschillende soorten prompts kan accommoderen en domeinexpertmodellen kan integreren. DiffusionGPT construeert domeinspecifieke bomen voor verschillende generatieve modellen op basis van voorkennis. Wanneer een invoer wordt gegeven, parseert de LLM de prompt en gebruikt de Trees-of-Thought om de selectie van een geschikt model te begeleiden, waardoor invoerbeperkingen worden versoepeld en uitstekende prestaties over diverse domeinen worden gegarandeerd. Bovendien introduceren we Voordelen Databases, waar de Tree-of-Thought wordt verrijkt met menselijke feedback, waardoor het modelselectieproces wordt afgestemd op menselijke voorkeuren. Door uitgebreide experimenten en vergelijkingen tonen we de effectiviteit van DiffusionGPT aan, waarbij het potentieel wordt getoond om de grenzen van beeld synthese in diverse domeinen te verleggen.
English
Diffusion models have opened up new avenues for the field of image
generation, resulting in the proliferation of high-quality models shared on
open-source platforms. However, a major challenge persists in current
text-to-image systems are often unable to handle diverse inputs, or are limited
to single model results. Current unified attempts often fall into two
orthogonal aspects: i) parse Diverse Prompts in input stage; ii) activate
expert model to output. To combine the best of both worlds, we propose
DiffusionGPT, which leverages Large Language Models (LLM) to offer a unified
generation system capable of seamlessly accommodating various types of prompts
and integrating domain-expert models. DiffusionGPT constructs domain-specific
Trees for various generative models based on prior knowledge. When provided
with an input, the LLM parses the prompt and employs the Trees-of-Thought to
guide the selection of an appropriate model, thereby relaxing input constraints
and ensuring exceptional performance across diverse domains. Moreover, we
introduce Advantage Databases, where the Tree-of-Thought is enriched with human
feedback, aligning the model selection process with human preferences. Through
extensive experiments and comparisons, we demonstrate the effectiveness of
DiffusionGPT, showcasing its potential for pushing the boundaries of image
synthesis in diverse domains.