ChatGen: Generación Automática de Texto a Imagen a partir de Conversaciones de Estilo Libre
ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
November 26, 2024
Autores: Chengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo
cs.AI
Resumen
A pesar de los avances significativos en los modelos generativos de texto a imagen (T2I), los usuarios a menudo se enfrentan a un desafío de prueba y error en escenarios prácticos. Este desafío surge de la complejidad e incertidumbre de pasos tediosos como la elaboración de indicaciones adecuadas, la selección de modelos apropiados y la configuración de argumentos específicos, lo que lleva a los usuarios a recurrir a intentos laboriosos para obtener las imágenes deseadas. Este documento propone la generación automática de T2I, que tiene como objetivo automatizar estos pasos tediosos, permitiendo a los usuarios describir simplemente sus necesidades de forma libre y conversacional. Para estudiar sistemáticamente este problema, primero presentamos ChatGenBench, un nuevo banco de pruebas diseñado para el T2I automático. Presenta datos emparejados de alta calidad con entradas de estilo libre diversas, lo que permite una evaluación exhaustiva de los modelos automáticos de T2I en todos los pasos. Además, al reconocer el T2I automático como una tarea de razonamiento complejo de múltiples pasos, proponemos ChatGen-Evo, una estrategia de evolución en múltiples etapas que dota progresivamente a los modelos de habilidades de automatización esenciales. A través de una evaluación extensa en precisión paso a paso y calidad de imagen, ChatGen-Evo mejora significativamente el rendimiento sobre varias líneas de base. Nuestra evaluación también revela ideas valiosas para avanzar en el T2I automático. Todos nuestros datos, código y modelos estarán disponibles en https://chengyou-jia.github.io/ChatGen-Home
English
Despite the significant advancements in text-to-image (T2I) generative
models, users often face a trial-and-error challenge in practical scenarios.
This challenge arises from the complexity and uncertainty of tedious steps such
as crafting suitable prompts, selecting appropriate models, and configuring
specific arguments, making users resort to labor-intensive attempts for desired
images. This paper proposes Automatic T2I generation, which aims to automate
these tedious steps, allowing users to simply describe their needs in a
freestyle chatting way. To systematically study this problem, we first
introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It
features high-quality paired data with diverse freestyle inputs, enabling
comprehensive evaluation of automatic T2I models across all steps.
Additionally, recognizing Automatic T2I as a complex multi-step reasoning task,
we propose ChatGen-Evo, a multi-stage evolution strategy that progressively
equips models with essential automation skills. Through extensive evaluation
across step-wise accuracy and image quality, ChatGen-Evo significantly enhances
performance over various baselines. Our evaluation also uncovers valuable
insights for advancing automatic T2I. All our data, code, and models will be
available in https://chengyou-jia.github.io/ChatGen-Home