DiffusionGPT : Système de génération d'images à partir de texte piloté par un modèle de langage
DiffusionGPT: LLM-Driven Text-to-Image Generation System
January 18, 2024
Auteurs: Jie Qin, Jie Wu, Weifeng Chen, Yuxi Ren, Huixia Li, Hefeng Wu, Xuefeng Xiao, Rui Wang, Shilei Wen
cs.AI
Résumé
Les modèles de diffusion ont ouvert de nouvelles perspectives dans le domaine de la génération d'images, entraînant une prolifération de modèles de haute qualité partagés sur des plateformes open source. Cependant, un défi majeur persiste : les systèmes actuels de génération d'images à partir de texte peinent souvent à gérer des entrées variées ou se limitent aux résultats d'un seul modèle. Les tentatives actuelles d'unification se divisent généralement en deux aspects orthogonaux : i) analyser des **prompts diversifiés** lors de l'étape d'entrée ; ii) activer un modèle expert pour la sortie. Pour combiner le meilleur des deux approches, nous proposons **DiffusionGPT**, qui exploite les **modèles de langage à grande échelle (LLM)** pour offrir un système de génération unifié capable d'intégrer de manière fluide divers types de prompts et de modèles experts par domaine. DiffusionGPT construit des **arbres spécifiques à un domaine** pour différents modèles génératifs en s'appuyant sur des connaissances préalables. Lorsqu'une entrée est fournie, le LLM analyse le prompt et utilise les **arbres de pensée (Trees-of-Thought)** pour guider la sélection d'un modèle approprié, réduisant ainsi les contraintes sur les entrées et garantissant des performances exceptionnelles dans divers domaines. De plus, nous introduisons des **bases de données d'avantages**, où l'arbre de pensée est enrichi par des retours humains, alignant le processus de sélection de modèle sur les préférences humaines. Grâce à des expériences et comparaisons approfondies, nous démontrons l'efficacité de DiffusionGPT, mettant en lumière son potentiel pour repousser les limites de la synthèse d'images dans des domaines variés.
English
Diffusion models have opened up new avenues for the field of image
generation, resulting in the proliferation of high-quality models shared on
open-source platforms. However, a major challenge persists in current
text-to-image systems are often unable to handle diverse inputs, or are limited
to single model results. Current unified attempts often fall into two
orthogonal aspects: i) parse Diverse Prompts in input stage; ii) activate
expert model to output. To combine the best of both worlds, we propose
DiffusionGPT, which leverages Large Language Models (LLM) to offer a unified
generation system capable of seamlessly accommodating various types of prompts
and integrating domain-expert models. DiffusionGPT constructs domain-specific
Trees for various generative models based on prior knowledge. When provided
with an input, the LLM parses the prompt and employs the Trees-of-Thought to
guide the selection of an appropriate model, thereby relaxing input constraints
and ensuring exceptional performance across diverse domains. Moreover, we
introduce Advantage Databases, where the Tree-of-Thought is enriched with human
feedback, aligning the model selection process with human preferences. Through
extensive experiments and comparisons, we demonstrate the effectiveness of
DiffusionGPT, showcasing its potential for pushing the boundaries of image
synthesis in diverse domains.