ChatGen: Geração Automática de Texto para Imagem a partir de Conversas Livres
ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
November 26, 2024
Autores: Chengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo
cs.AI
Resumo
Apesar dos avanços significativos em modelos generativos de texto para imagem (T2I), os usuários frequentemente enfrentam um desafio de tentativa e erro em cenários práticos. Esse desafio surge da complexidade e incerteza de etapas tediosas como elaborar prompts adequados, selecionar modelos apropriados e configurar argumentos específicos, levando os usuários a recorrer a tentativas trabalhosas para obter imagens desejadas. Este artigo propõe a geração automática de T2I, que visa automatizar essas etapas tediosas, permitindo que os usuários descrevam simplesmente suas necessidades de forma livre em uma conversa. Para estudar sistematicamente esse problema, introduzimos primeiro o ChatGenBench, um novo benchmark projetado para o T2I automático. Ele apresenta dados em pares de alta qualidade com entradas de conversa livre diversas, possibilitando uma avaliação abrangente de modelos automáticos de T2I em todas as etapas. Além disso, reconhecendo o T2I automático como uma tarefa complexa de raciocínio multiestágio, propomos o ChatGen-Evo, uma estratégia de evolução em múltiplos estágios que equipa progressivamente os modelos com habilidades de automação essenciais. Através de uma extensa avaliação de precisão por etapa e qualidade de imagem, o ChatGen-Evo melhora significativamente o desempenho em relação a várias bases de comparação. Nossa avaliação também revela insights valiosos para avançar no T2I automático. Todos os nossos dados, código e modelos estarão disponíveis em https://chengyou-jia.github.io/ChatGen-Home
English
Despite the significant advancements in text-to-image (T2I) generative
models, users often face a trial-and-error challenge in practical scenarios.
This challenge arises from the complexity and uncertainty of tedious steps such
as crafting suitable prompts, selecting appropriate models, and configuring
specific arguments, making users resort to labor-intensive attempts for desired
images. This paper proposes Automatic T2I generation, which aims to automate
these tedious steps, allowing users to simply describe their needs in a
freestyle chatting way. To systematically study this problem, we first
introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It
features high-quality paired data with diverse freestyle inputs, enabling
comprehensive evaluation of automatic T2I models across all steps.
Additionally, recognizing Automatic T2I as a complex multi-step reasoning task,
we propose ChatGen-Evo, a multi-stage evolution strategy that progressively
equips models with essential automation skills. Through extensive evaluation
across step-wise accuracy and image quality, ChatGen-Evo significantly enhances
performance over various baselines. Our evaluation also uncovers valuable
insights for advancing automatic T2I. All our data, code, and models will be
available in https://chengyou-jia.github.io/ChatGen-HomeSummary
AI-Generated Summary