TextAtlas5M : un ensemble de données à grande échelle pour la génération d'images de texte dense
TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation
February 11, 2025
Auteurs: Alex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li
cs.AI
Résumé
La génération d'images conditionnée par du texte a suscité un intérêt croissant ces dernières années et traite des prompts textuels de plus en plus longs et complets. Dans la vie quotidienne, des textes denses et complexes apparaissent dans des contextes tels que les publicités, les infographies et la signalétique, où l'intégration à la fois du texte et des visuels est essentielle pour transmettre des informations complexes. Cependant, malgré ces avancées, la génération d'images contenant du texte long reste un défi persistant, principalement en raison des limitations des ensembles de données existants, qui se concentrent souvent sur des textes plus courts et plus simples. Pour combler cette lacune, nous présentons TextAtlas5M, un nouvel ensemble de données spécifiquement conçu pour évaluer le rendu de texte long dans la génération d'images conditionnée par du texte. Notre ensemble de données se compose de 5 millions d'images générées et collectées contenant du texte long, provenant de divers types de données, permettant une évaluation complète des modèles génératifs à grande échelle sur la génération d'images de texte long. Nous avons également sélectionné avec soin un ensemble de tests améliorés par des humains, TextAtlasEval, comprenant 3000 exemples à travers 3 domaines de données, établissant l'un des benchmarks les plus complets pour la génération conditionnée par du texte. Les évaluations suggèrent que les benchmarks TextAtlasEval présentent des défis significatifs même pour les modèles propriétaires les plus avancés (par exemple, GPT4o avec DallE-3), tandis que leurs homologues open-source montrent un écart de performance encore plus important. Ces éléments positionnent TextAtlas5M comme un ensemble de données précieux pour l'entraînement et l'évaluation des modèles de génération d'images conditionnée par du texte de prochaine génération.
English
Text-conditioned image generation has gained significant attention in recent
years and are processing increasingly longer and comprehensive text prompt. In
everyday life, dense and intricate text appears in contexts like
advertisements, infographics, and signage, where the integration of both text
and visuals is essential for conveying complex information. However, despite
these advances, the generation of images containing long-form text remains a
persistent challenge, largely due to the limitations of existing datasets,
which often focus on shorter and simpler text. To address this gap, we
introduce TextAtlas5M, a novel dataset specifically designed to evaluate
long-text rendering in text-conditioned image generation. Our dataset consists
of 5 million long-text generated and collected images across diverse data
types, enabling comprehensive evaluation of large-scale generative models on
long-text image generation. We further curate 3000 human-improved test set
TextAtlasEval across 3 data domains, establishing one of the most extensive
benchmarks for text-conditioned generation. Evaluations suggest that the
TextAtlasEval benchmarks present significant challenges even for the most
advanced proprietary models (e.g. GPT4o with DallE-3), while their open-source
counterparts show an even larger performance gap. These evidences position
TextAtlas5M as a valuable dataset for training and evaluating future-generation
text-conditioned image generation models.Summary
AI-Generated Summary