ChatPaper.aiChatPaper

DiffusionGPT: Sistema de Geração de Texto para Imagem Impulsionado por LLM

DiffusionGPT: LLM-Driven Text-to-Image Generation System

January 18, 2024
Autores: Jie Qin, Jie Wu, Weifeng Chen, Yuxi Ren, Huixia Li, Hefeng Wu, Xuefeng Xiao, Rui Wang, Shilei Wen
cs.AI

Resumo

Os modelos de difusão abriram novos caminhos para o campo de geração de imagens, resultando na proliferação de modelos de alta qualidade compartilhados em plataformas de código aberto. No entanto, um grande desafio persiste nos sistemas atuais de texto para imagem, que muitas vezes são incapazes de lidar com entradas diversas ou estão limitados a resultados de um único modelo. As tentativas atuais de unificação geralmente se dividem em dois aspectos ortogonais: i) analisar Prompts Diversos na etapa de entrada; ii) ativar modelos especializados para a saída. Para combinar o melhor de ambos os mundos, propomos o DiffusionGPT, que aproveita os Modelos de Linguagem de Grande Escala (LLM) para oferecer um sistema de geração unificado capaz de acomodar perfeitamente vários tipos de prompts e integrar modelos especializados em domínios específicos. O DiffusionGPT constrói Árvores Específicas de Domínio para vários modelos generativos com base em conhecimento prévio. Quando recebe uma entrada, o LLM analisa o prompt e utiliza as Árvores de Pensamento para orientar a seleção de um modelo apropriado, relaxando assim as restrições de entrada e garantindo um desempenho excepcional em diversos domínios. Além disso, introduzimos Bancos de Dados de Vantagens, onde a Árvore de Pensamento é enriquecida com feedback humano, alinhando o processo de seleção de modelos com as preferências humanas. Por meio de extensos experimentos e comparações, demonstramos a eficácia do DiffusionGPT, destacando seu potencial para expandir os limites da síntese de imagens em diversos domínios.
English
Diffusion models have opened up new avenues for the field of image generation, resulting in the proliferation of high-quality models shared on open-source platforms. However, a major challenge persists in current text-to-image systems are often unable to handle diverse inputs, or are limited to single model results. Current unified attempts often fall into two orthogonal aspects: i) parse Diverse Prompts in input stage; ii) activate expert model to output. To combine the best of both worlds, we propose DiffusionGPT, which leverages Large Language Models (LLM) to offer a unified generation system capable of seamlessly accommodating various types of prompts and integrating domain-expert models. DiffusionGPT constructs domain-specific Trees for various generative models based on prior knowledge. When provided with an input, the LLM parses the prompt and employs the Trees-of-Thought to guide the selection of an appropriate model, thereby relaxing input constraints and ensuring exceptional performance across diverse domains. Moreover, we introduce Advantage Databases, where the Tree-of-Thought is enriched with human feedback, aligning the model selection process with human preferences. Through extensive experiments and comparisons, we demonstrate the effectiveness of DiffusionGPT, showcasing its potential for pushing the boundaries of image synthesis in diverse domains.
PDF314December 15, 2024