TextAtlas5M: крупномасштабный набор данных для генерации плотных изображений текста.
TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation
February 11, 2025
Авторы: Alex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li
cs.AI
Аннотация
Генерация изображений, зависящая от текста, привлекла значительное внимание в последние годы и обрабатывает все более длинные и комплексные текстовые подсказки. В повседневной жизни плотный и запутанный текст встречается в контекстах, таких как реклама, инфографика и указатели, где интеграция текста и визуальных элементов необходима для передачи сложной информации. Однако, несмотря на эти достижения, генерация изображений с длинным текстом остается настоящим вызовом, в значительной степени из-за ограничений существующих наборов данных, которые часто сосредоточены на более коротком и простом тексте. Для решения этого пробела мы представляем TextAtlas5M, новый набор данных, специально разработанный для оценки рендеринга длинного текста в генерации изображений, зависящей от текста. Наш набор данных состоит из 5 миллионов сгенерированных и собранных изображений с длинным текстом различных типов данных, обеспечивая комплексную оценку масштабных генеративных моделей в области генерации изображений с длинным текстом. Мы также подготовили 3000 тестовых наборов данных TextAtlasEval, улучшенных людьми, по 3 областям данных, устанавливая один из самых обширных бенчмарков для генерации изображений, зависящей от текста. Оценки показывают, что бенчмарки TextAtlasEval представляют существенные вызовы даже для самых передовых закрытых моделей (например, GPT4o с DallE-3), в то время как их открытые аналоги показывают еще большую разницу в производительности. Эти доказательства позиционируют TextAtlas5M как ценный набор данных для обучения и оценки моделей генерации изображений, зависящих от текста, будущего поколения.
English
Text-conditioned image generation has gained significant attention in recent
years and are processing increasingly longer and comprehensive text prompt. In
everyday life, dense and intricate text appears in contexts like
advertisements, infographics, and signage, where the integration of both text
and visuals is essential for conveying complex information. However, despite
these advances, the generation of images containing long-form text remains a
persistent challenge, largely due to the limitations of existing datasets,
which often focus on shorter and simpler text. To address this gap, we
introduce TextAtlas5M, a novel dataset specifically designed to evaluate
long-text rendering in text-conditioned image generation. Our dataset consists
of 5 million long-text generated and collected images across diverse data
types, enabling comprehensive evaluation of large-scale generative models on
long-text image generation. We further curate 3000 human-improved test set
TextAtlasEval across 3 data domains, establishing one of the most extensive
benchmarks for text-conditioned generation. Evaluations suggest that the
TextAtlasEval benchmarks present significant challenges even for the most
advanced proprietary models (e.g. GPT4o with DallE-3), while their open-source
counterparts show an even larger performance gap. These evidences position
TextAtlas5M as a valuable dataset for training and evaluating future-generation
text-conditioned image generation models.Summary
AI-Generated Summary