ChatPaper.aiChatPaper

TextAtlas5M: Um Conjunto de Dados em Grande Escala para Geração de Imagens de Texto Denso

TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

February 11, 2025
Autores: Alex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li
cs.AI

Resumo

A geração de imagens condicionadas por texto tem ganhado atenção significativa nos últimos anos, processando prompts de texto cada vez mais longos e abrangentes. No cotidiano, textos densos e intrincados aparecem em contextos como anúncios, infográficos e sinalizações, onde a integração de texto e elementos visuais é essencial para transmitir informações complexas. No entanto, apesar desses avanços, a geração de imagens contendo textos longos continua sendo um desafio persistente, principalmente devido às limitações dos conjuntos de dados existentes, que frequentemente se concentram em textos mais curtos e simples. Para abordar essa lacuna, introduzimos o TextAtlas5M, um novo conjunto de dados especificamente projetado para avaliar a renderização de textos longos na geração de imagens condicionadas por texto. Nosso conjunto de dados consiste em 5 milhões de imagens geradas e coletadas com textos longos, abrangendo diversos tipos de dados, permitindo uma avaliação abrangente de modelos generativos em larga escala na geração de imagens com textos longos. Além disso, curamos um conjunto de testes aprimorado por humanos, o TextAtlasEval, composto por 3000 imagens em 3 domínios de dados, estabelecendo um dos benchmarks mais extensos para geração condicionada por texto. As avaliações sugerem que os benchmarks do TextAtlasEval apresentam desafios significativos mesmo para os modelos proprietários mais avançados (por exemplo, GPT4o com DallE-3), enquanto suas contrapartes de código aberto mostram uma lacuna de desempenho ainda maior. Essas evidências posicionam o TextAtlas5M como um conjunto de dados valioso para o treinamento e avaliação de futuras gerações de modelos de geração de imagens condicionadas por texto.
English
Text-conditioned image generation has gained significant attention in recent years and are processing increasingly longer and comprehensive text prompt. In everyday life, dense and intricate text appears in contexts like advertisements, infographics, and signage, where the integration of both text and visuals is essential for conveying complex information. However, despite these advances, the generation of images containing long-form text remains a persistent challenge, largely due to the limitations of existing datasets, which often focus on shorter and simpler text. To address this gap, we introduce TextAtlas5M, a novel dataset specifically designed to evaluate long-text rendering in text-conditioned image generation. Our dataset consists of 5 million long-text generated and collected images across diverse data types, enabling comprehensive evaluation of large-scale generative models on long-text image generation. We further curate 3000 human-improved test set TextAtlasEval across 3 data domains, establishing one of the most extensive benchmarks for text-conditioned generation. Evaluations suggest that the TextAtlasEval benchmarks present significant challenges even for the most advanced proprietary models (e.g. GPT4o with DallE-3), while their open-source counterparts show an even larger performance gap. These evidences position TextAtlas5M as a valuable dataset for training and evaluating future-generation text-conditioned image generation models.
PDF452February 13, 2025