ChatGen: フリースタイルチャットからの自動テキストから画像生成
ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting
November 26, 2024
著者: Chengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo
cs.AI
要旨
テキストから画像への生成モデル(T2I)の重要な進展にもかかわらず、実践的なシナリオでユーザーはしばしば試行錯誤の課題に直面します。この課題は、適切なプロンプトの作成、適切なモデルの選択、および特定の引数の設定などの煩雑な手順の複雑さと不確実性から生じ、ユーザーは望ましい画像のために労力を要する試みに頼らざるを得ません。本論文では、自動T2I生成を提案し、これらの煩雑な手順を自動化し、ユーザーが自由なチャットのようにニーズを簡単に説明できるようにすることを目指しています。この問題を体系的に研究するために、まずAutomatic T2I向けに設計された新しいベンチマークであるChatGenBenchを紹介します。これには多様な自由な入力を持つ高品質のペアデータが特徴として組み込まれており、全ステップで自動T2Iモデルを包括的に評価することが可能です。さらに、自動T2Iを複雑な多段階の推論タスクと認識し、モデルに必要な自動化スキルを段階的に付与する多段階進化戦略であるChatGen-Evoを提案しています。ステップごとの精度と画像品質を通じた包括的な評価を通じて、ChatGen-Evoはさまざまなベースラインに比べて性能を著しく向上させます。評価により、自動T2Iの進展に向けた貴重な示唆も明らかになります。すべてのデータ、コード、モデルはhttps://chengyou-jia.github.io/ChatGen-Homeで入手可能です。
English
Despite the significant advancements in text-to-image (T2I) generative
models, users often face a trial-and-error challenge in practical scenarios.
This challenge arises from the complexity and uncertainty of tedious steps such
as crafting suitable prompts, selecting appropriate models, and configuring
specific arguments, making users resort to labor-intensive attempts for desired
images. This paper proposes Automatic T2I generation, which aims to automate
these tedious steps, allowing users to simply describe their needs in a
freestyle chatting way. To systematically study this problem, we first
introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It
features high-quality paired data with diverse freestyle inputs, enabling
comprehensive evaluation of automatic T2I models across all steps.
Additionally, recognizing Automatic T2I as a complex multi-step reasoning task,
we propose ChatGen-Evo, a multi-stage evolution strategy that progressively
equips models with essential automation skills. Through extensive evaluation
across step-wise accuracy and image quality, ChatGen-Evo significantly enhances
performance over various baselines. Our evaluation also uncovers valuable
insights for advancing automatic T2I. All our data, code, and models will be
available in https://chengyou-jia.github.io/ChatGen-HomeSummary
AI-Generated Summary