ChatGen: Geração Automática de Texto para Imagem a partir de Conversas Livres

Resumo

Apesar dos avanços significativos em modelos generativos de texto para imagem (T2I), os usuários frequentemente enfrentam um desafio de tentativa e erro em cenários práticos. Esse desafio surge da complexidade e incerteza de etapas tediosas como elaborar prompts adequados, selecionar modelos apropriados e configurar argumentos específicos, levando os usuários a recorrer a tentativas trabalhosas para obter imagens desejadas. Este artigo propõe a geração automática de T2I, que visa automatizar essas etapas tediosas, permitindo que os usuários descrevam simplesmente suas necessidades de forma livre em uma conversa. Para estudar sistematicamente esse problema, introduzimos primeiro o ChatGenBench, um novo benchmark projetado para o T2I automático. Ele apresenta dados em pares de alta qualidade com entradas de conversa livre diversas, possibilitando uma avaliação abrangente de modelos automáticos de T2I em todas as etapas. Além disso, reconhecendo o T2I automático como uma tarefa complexa de raciocínio multiestágio, propomos o ChatGen-Evo, uma estratégia de evolução em múltiplos estágios que equipa progressivamente os modelos com habilidades de automação essenciais. Através de uma extensa avaliação de precisão por etapa e qualidade de imagem, o ChatGen-Evo melhora significativamente o desempenho em relação a várias bases de comparação. Nossa avaliação também revela insights valiosos para avançar no T2I automático. Todos os nossos dados, código e modelos estarão disponíveis em https://chengyou-jia.github.io/ChatGen-Home

English

Despite the significant advancements in text-to-image (T2I) generative models, users often face a trial-and-error challenge in practical scenarios. This challenge arises from the complexity and uncertainty of tedious steps such as crafting suitable prompts, selecting appropriate models, and configuring specific arguments, making users resort to labor-intensive attempts for desired images. This paper proposes Automatic T2I generation, which aims to automate these tedious steps, allowing users to simply describe their needs in a freestyle chatting way. To systematically study this problem, we first introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It features high-quality paired data with diverse freestyle inputs, enabling comprehensive evaluation of automatic T2I models across all steps. Additionally, recognizing Automatic T2I as a complex multi-step reasoning task, we propose ChatGen-Evo, a multi-stage evolution strategy that progressively equips models with essential automation skills. Through extensive evaluation across step-wise accuracy and image quality, ChatGen-Evo significantly enhances performance over various baselines. Our evaluation also uncovers valuable insights for advancing automatic T2I. All our data, code, and models will be available in https://chengyou-jia.github.io/ChatGen-Home

ChatGen: Geração Automática de Texto para Imagem a partir de Conversas Livres

ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting

Resumo

Support