ChatGen : Génération automatique de texte en image à partir de discussions libres
ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
November 26, 2024
Auteurs: Chengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo
cs.AI
Résumé
Malgré les avancées significatives dans les modèles génératifs de texte vers image (T2I), les utilisateurs sont souvent confrontés à un défi de tâtonnement dans des scénarios pratiques. Ce défi découle de la complexité et de l'incertitude des étapes fastidieuses telles que la création de prompts appropriés, la sélection de modèles adéquats et la configuration d'arguments spécifiques, amenant les utilisateurs à recourir à des tentatives intensives pour obtenir les images souhaitées. Cet article propose la génération automatique T2I, qui vise à automatiser ces étapes fastidieuses, permettant aux utilisateurs de simplement décrire leurs besoins de manière conversationnelle. Pour étudier systématiquement ce problème, nous introduisons d'abord ChatGenBench, un nouveau banc d'essai conçu pour la génération automatique T2I. Il présente des données appariées de haute qualité avec des entrées conversationnelles diverses, permettant une évaluation complète des modèles T2I automatiques à toutes les étapes. De plus, reconnaissant la génération automatique T2I comme une tâche de raisonnement complexe en plusieurs étapes, nous proposons ChatGen-Evo, une stratégie d'évolution multi-étapes qui dote progressivement les modèles de compétences d'automatisation essentielles. À travers une évaluation approfondie de la précision étape par étape et de la qualité de l'image, ChatGen-Evo améliore significativement les performances par rapport à diverses références. Notre évaluation révèle également des perspectives précieuses pour faire progresser la génération automatique T2I. Toutes nos données, notre code et nos modèles seront disponibles sur https://chengyou-jia.github.io/ChatGen-Home
English
Despite the significant advancements in text-to-image (T2I) generative
models, users often face a trial-and-error challenge in practical scenarios.
This challenge arises from the complexity and uncertainty of tedious steps such
as crafting suitable prompts, selecting appropriate models, and configuring
specific arguments, making users resort to labor-intensive attempts for desired
images. This paper proposes Automatic T2I generation, which aims to automate
these tedious steps, allowing users to simply describe their needs in a
freestyle chatting way. To systematically study this problem, we first
introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It
features high-quality paired data with diverse freestyle inputs, enabling
comprehensive evaluation of automatic T2I models across all steps.
Additionally, recognizing Automatic T2I as a complex multi-step reasoning task,
we propose ChatGen-Evo, a multi-stage evolution strategy that progressively
equips models with essential automation skills. Through extensive evaluation
across step-wise accuracy and image quality, ChatGen-Evo significantly enhances
performance over various baselines. Our evaluation also uncovers valuable
insights for advancing automatic T2I. All our data, code, and models will be
available in https://chengyou-jia.github.io/ChatGen-HomeSummary
AI-Generated Summary