ChatPaper.aiChatPaper

DiffusionGPT: LLM-Gestuurd Tekst-naar-Beeld Generatiesysteem

DiffusionGPT: LLM-Driven Text-to-Image Generation System

January 18, 2024
Auteurs: Jie Qin, Jie Wu, Weifeng Chen, Yuxi Ren, Huixia Li, Hefeng Wu, Xuefeng Xiao, Rui Wang, Shilei Wen
cs.AI

Samenvatting

Diffusiemodellen hebben nieuwe mogelijkheden geopend op het gebied van beeldgeneratie, wat heeft geleid tot een toename van hoogwaardige modellen die worden gedeeld op open-source platforms. Een grote uitdaging blijft echter bestaan in huidige tekst-naar-beeld systemen, die vaak niet in staat zijn om diverse invoer te verwerken of beperkt zijn tot resultaten van een enkel model. Huidige geïntegreerde pogingen vallen vaak in twee orthogonale aspecten: i) het verwerken van diverse prompts in de invoerfase; ii) het activeren van een expertmodel voor de uitvoer. Om het beste van beide werelden te combineren, stellen we DiffusionGPT voor, dat gebruikmaakt van Large Language Models (LLM) om een geïntegreerd generatiesysteem te bieden dat naadloos verschillende soorten prompts kan accommoderen en domeinexpertmodellen kan integreren. DiffusionGPT construeert domeinspecifieke bomen voor verschillende generatieve modellen op basis van voorkennis. Wanneer een invoer wordt gegeven, parseert de LLM de prompt en gebruikt de Trees-of-Thought om de selectie van een geschikt model te begeleiden, waardoor invoerbeperkingen worden versoepeld en uitstekende prestaties over diverse domeinen worden gegarandeerd. Bovendien introduceren we Voordelen Databases, waar de Tree-of-Thought wordt verrijkt met menselijke feedback, waardoor het modelselectieproces wordt afgestemd op menselijke voorkeuren. Door uitgebreide experimenten en vergelijkingen tonen we de effectiviteit van DiffusionGPT aan, waarbij het potentieel wordt getoond om de grenzen van beeld synthese in diverse domeinen te verleggen.
English
Diffusion models have opened up new avenues for the field of image generation, resulting in the proliferation of high-quality models shared on open-source platforms. However, a major challenge persists in current text-to-image systems are often unable to handle diverse inputs, or are limited to single model results. Current unified attempts often fall into two orthogonal aspects: i) parse Diverse Prompts in input stage; ii) activate expert model to output. To combine the best of both worlds, we propose DiffusionGPT, which leverages Large Language Models (LLM) to offer a unified generation system capable of seamlessly accommodating various types of prompts and integrating domain-expert models. DiffusionGPT constructs domain-specific Trees for various generative models based on prior knowledge. When provided with an input, the LLM parses the prompt and employs the Trees-of-Thought to guide the selection of an appropriate model, thereby relaxing input constraints and ensuring exceptional performance across diverse domains. Moreover, we introduce Advantage Databases, where the Tree-of-Thought is enriched with human feedback, aligning the model selection process with human preferences. Through extensive experiments and comparisons, we demonstrate the effectiveness of DiffusionGPT, showcasing its potential for pushing the boundaries of image synthesis in diverse domains.
PDF314December 15, 2024