DiffusionGPT : Système de génération d'images à partir de texte piloté par un modèle de langage

papers.abstract

Les modèles de diffusion ont ouvert de nouvelles perspectives dans le domaine de la génération d'images, entraînant une prolifération de modèles de haute qualité partagés sur des plateformes open source. Cependant, un défi majeur persiste : les systèmes actuels de génération d'images à partir de texte peinent souvent à gérer des entrées variées ou se limitent aux résultats d'un seul modèle. Les tentatives actuelles d'unification se divisent généralement en deux aspects orthogonaux : i) analyser des **prompts diversifiés** lors de l'étape d'entrée ; ii) activer un modèle expert pour la sortie. Pour combiner le meilleur des deux approches, nous proposons **DiffusionGPT**, qui exploite les **modèles de langage à grande échelle (LLM)** pour offrir un système de génération unifié capable d'intégrer de manière fluide divers types de prompts et de modèles experts par domaine. DiffusionGPT construit des **arbres spécifiques à un domaine** pour différents modèles génératifs en s'appuyant sur des connaissances préalables. Lorsqu'une entrée est fournie, le LLM analyse le prompt et utilise les **arbres de pensée (Trees-of-Thought)** pour guider la sélection d'un modèle approprié, réduisant ainsi les contraintes sur les entrées et garantissant des performances exceptionnelles dans divers domaines. De plus, nous introduisons des **bases de données d'avantages**, où l'arbre de pensée est enrichi par des retours humains, alignant le processus de sélection de modèle sur les préférences humaines. Grâce à des expériences et comparaisons approfondies, nous démontrons l'efficacité de DiffusionGPT, mettant en lumière son potentiel pour repousser les limites de la synthèse d'images dans des domaines variés.

English

Diffusion models have opened up new avenues for the field of image generation, resulting in the proliferation of high-quality models shared on open-source platforms. However, a major challenge persists in current text-to-image systems are often unable to handle diverse inputs, or are limited to single model results. Current unified attempts often fall into two orthogonal aspects: i) parse Diverse Prompts in input stage; ii) activate expert model to output. To combine the best of both worlds, we propose DiffusionGPT, which leverages Large Language Models (LLM) to offer a unified generation system capable of seamlessly accommodating various types of prompts and integrating domain-expert models. DiffusionGPT constructs domain-specific Trees for various generative models based on prior knowledge. When provided with an input, the LLM parses the prompt and employs the Trees-of-Thought to guide the selection of an appropriate model, thereby relaxing input constraints and ensuring exceptional performance across diverse domains. Moreover, we introduce Advantage Databases, where the Tree-of-Thought is enriched with human feedback, aligning the model selection process with human preferences. Through extensive experiments and comparisons, we demonstrate the effectiveness of DiffusionGPT, showcasing its potential for pushing the boundaries of image synthesis in diverse domains.

DiffusionGPT : Système de génération d'images à partir de texte piloté par un modèle de langage

DiffusionGPT: LLM-Driven Text-to-Image Generation System

papers.abstract

Support