ChatPaper.aiChatPaper

ChatGen: Automatische Text-zu-Bild Generierung aus freiem Chat.

ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting

November 26, 2024
Autoren: Chengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo
cs.AI

Zusammenfassung

Trotz der signifikanten Fortschritte bei textbasierten Bildgenerierungsmodellen (T2I) stehen Benutzer in der Praxis oft vor einer Versuchs-und-Irrtum-Herausforderung. Diese Schwierigkeit ergibt sich aus der Komplexität und Unsicherheit mühsamer Schritte wie dem Erstellen geeigneter Anfragen, der Auswahl passender Modelle und der Konfiguration spezifischer Argumente, wodurch Benutzer zu arbeitsintensiven Versuchen für gewünschte Bilder greifen müssen. Dieser Artikel schlägt die automatische Generierung von T2I vor, die darauf abzielt, diese mühsamen Schritte zu automatisieren und es Benutzern ermöglicht, ihre Bedürfnisse einfach in einer freien Chat-Form zu beschreiben. Um dieses Problem systematisch zu untersuchen, führen wir zunächst ChatGenBench ein, einen neuartigen Benchmark, der für die automatische T2I entwickelt wurde. Er bietet hochwertige gepaarte Daten mit vielfältigen freien Eingaben und ermöglicht eine umfassende Bewertung automatischer T2I-Modelle in allen Schritten. Darüber hinaus schlagen wir ChatGen-Evo vor, eine Multi-Stage-Evolutionstrategie, die automatische T2I als komplexe mehrstufige Denkaufgabe betrachtet und Modelle schrittweise mit wesentlichen Automatisierungsfähigkeiten ausstattet. Durch umfangreiche Bewertung hinsichtlich schrittweiser Genauigkeit und Bildqualität verbessert ChatGen-Evo die Leistung signifikant im Vergleich zu verschiedenen Baselines. Unsere Bewertung enthüllt auch wertvolle Erkenntnisse zur Weiterentwicklung der automatischen T2I. Alle unsere Daten, Codes und Modelle werden unter https://chengyou-jia.github.io/ChatGen-Home verfügbar sein.
English
Despite the significant advancements in text-to-image (T2I) generative models, users often face a trial-and-error challenge in practical scenarios. This challenge arises from the complexity and uncertainty of tedious steps such as crafting suitable prompts, selecting appropriate models, and configuring specific arguments, making users resort to labor-intensive attempts for desired images. This paper proposes Automatic T2I generation, which aims to automate these tedious steps, allowing users to simply describe their needs in a freestyle chatting way. To systematically study this problem, we first introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It features high-quality paired data with diverse freestyle inputs, enabling comprehensive evaluation of automatic T2I models across all steps. Additionally, recognizing Automatic T2I as a complex multi-step reasoning task, we propose ChatGen-Evo, a multi-stage evolution strategy that progressively equips models with essential automation skills. Through extensive evaluation across step-wise accuracy and image quality, ChatGen-Evo significantly enhances performance over various baselines. Our evaluation also uncovers valuable insights for advancing automatic T2I. All our data, code, and models will be available in https://chengyou-jia.github.io/ChatGen-Home

Summary

AI-Generated Summary

PDF243November 29, 2024