DiffusionGPT: Sistema de Geração de Texto para Imagem Impulsionado por LLM
DiffusionGPT: LLM-Driven Text-to-Image Generation System
January 18, 2024
Autores: Jie Qin, Jie Wu, Weifeng Chen, Yuxi Ren, Huixia Li, Hefeng Wu, Xuefeng Xiao, Rui Wang, Shilei Wen
cs.AI
Resumo
Os modelos de difusão abriram novos caminhos para o campo de geração de imagens, resultando na proliferação de modelos de alta qualidade compartilhados em plataformas de código aberto. No entanto, um grande desafio persiste nos sistemas atuais de texto para imagem, que muitas vezes são incapazes de lidar com entradas diversas ou estão limitados a resultados de um único modelo. As tentativas atuais de unificação geralmente se dividem em dois aspectos ortogonais: i) analisar Prompts Diversos na etapa de entrada; ii) ativar modelos especializados para a saída. Para combinar o melhor de ambos os mundos, propomos o DiffusionGPT, que aproveita os Modelos de Linguagem de Grande Escala (LLM) para oferecer um sistema de geração unificado capaz de acomodar perfeitamente vários tipos de prompts e integrar modelos especializados em domínios específicos. O DiffusionGPT constrói Árvores Específicas de Domínio para vários modelos generativos com base em conhecimento prévio. Quando recebe uma entrada, o LLM analisa o prompt e utiliza as Árvores de Pensamento para orientar a seleção de um modelo apropriado, relaxando assim as restrições de entrada e garantindo um desempenho excepcional em diversos domínios. Além disso, introduzimos Bancos de Dados de Vantagens, onde a Árvore de Pensamento é enriquecida com feedback humano, alinhando o processo de seleção de modelos com as preferências humanas. Por meio de extensos experimentos e comparações, demonstramos a eficácia do DiffusionGPT, destacando seu potencial para expandir os limites da síntese de imagens em diversos domínios.
English
Diffusion models have opened up new avenues for the field of image
generation, resulting in the proliferation of high-quality models shared on
open-source platforms. However, a major challenge persists in current
text-to-image systems are often unable to handle diverse inputs, or are limited
to single model results. Current unified attempts often fall into two
orthogonal aspects: i) parse Diverse Prompts in input stage; ii) activate
expert model to output. To combine the best of both worlds, we propose
DiffusionGPT, which leverages Large Language Models (LLM) to offer a unified
generation system capable of seamlessly accommodating various types of prompts
and integrating domain-expert models. DiffusionGPT constructs domain-specific
Trees for various generative models based on prior knowledge. When provided
with an input, the LLM parses the prompt and employs the Trees-of-Thought to
guide the selection of an appropriate model, thereby relaxing input constraints
and ensuring exceptional performance across diverse domains. Moreover, we
introduce Advantage Databases, where the Tree-of-Thought is enriched with human
feedback, aligning the model selection process with human preferences. Through
extensive experiments and comparisons, we demonstrate the effectiveness of
DiffusionGPT, showcasing its potential for pushing the boundaries of image
synthesis in diverse domains.