TextAtlas5M: 密なテキスト画像生成のための大規模データセット
TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation
February 11, 2025
著者: Alex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li
cs.AI
要旨
最近、テキスト条件付き画像生成は注目を集めており、ますます長く包括的なテキストプロンプトを処理しています。日常生活では、広告、インフォグラフィック、看板などのコンテキストで密で入り組んだテキストが現れ、テキストと視覚の両方を統合することが複雑な情報を伝達するために不可欠です。しかし、これらの進歩にもかかわらず、長文テキストを含む画像の生成は、既存のデータセットの制限により依然として課題が残っています。これらのデータセットはしばしば短く単純なテキストに焦点を当てています。このギャップを埋めるために、長文のレンダリングを評価するために特に設計された新しいデータセットであるTextAtlas5Mを紹介します。当データセットは、さまざまなデータタイプを横断する500万枚の長文生成および収集された画像で構成されており、大規模な生成モデルの長文画像生成に関する包括的な評価を可能にします。さらに、3つのデータドメインにわたる3000の人間による改良テストセットTextAtlasEvalをキュレーションし、テキスト条件付き生成のための最も包括的なベンチマークの1つを確立します。評価によると、TextAtlasEvalベンチマークは、最も高度なプロプライエタリモデル(例:GPT4o with DallE-3)でも重要な課題を提示しており、オープンソースの対応モデルはさらに大きな性能差を示しています。これらの証拠は、TextAtlas5Mを将来の世代のテキスト条件付き画像生成モデルのトレーニングと評価に貴重なデータセットと位置付けています。
English
Text-conditioned image generation has gained significant attention in recent
years and are processing increasingly longer and comprehensive text prompt. In
everyday life, dense and intricate text appears in contexts like
advertisements, infographics, and signage, where the integration of both text
and visuals is essential for conveying complex information. However, despite
these advances, the generation of images containing long-form text remains a
persistent challenge, largely due to the limitations of existing datasets,
which often focus on shorter and simpler text. To address this gap, we
introduce TextAtlas5M, a novel dataset specifically designed to evaluate
long-text rendering in text-conditioned image generation. Our dataset consists
of 5 million long-text generated and collected images across diverse data
types, enabling comprehensive evaluation of large-scale generative models on
long-text image generation. We further curate 3000 human-improved test set
TextAtlasEval across 3 data domains, establishing one of the most extensive
benchmarks for text-conditioned generation. Evaluations suggest that the
TextAtlasEval benchmarks present significant challenges even for the most
advanced proprietary models (e.g. GPT4o with DallE-3), while their open-source
counterparts show an even larger performance gap. These evidences position
TextAtlas5M as a valuable dataset for training and evaluating future-generation
text-conditioned image generation models.Summary
AI-Generated Summary