TextAtlas5M: крупномасштабный набор данных для генерации плотных изображений текста.

Аннотация

Генерация изображений, зависящая от текста, привлекла значительное внимание в последние годы и обрабатывает все более длинные и комплексные текстовые подсказки. В повседневной жизни плотный и запутанный текст встречается в контекстах, таких как реклама, инфографика и указатели, где интеграция текста и визуальных элементов необходима для передачи сложной информации. Однако, несмотря на эти достижения, генерация изображений с длинным текстом остается настоящим вызовом, в значительной степени из-за ограничений существующих наборов данных, которые часто сосредоточены на более коротком и простом тексте. Для решения этого пробела мы представляем TextAtlas5M, новый набор данных, специально разработанный для оценки рендеринга длинного текста в генерации изображений, зависящей от текста. Наш набор данных состоит из 5 миллионов сгенерированных и собранных изображений с длинным текстом различных типов данных, обеспечивая комплексную оценку масштабных генеративных моделей в области генерации изображений с длинным текстом. Мы также подготовили 3000 тестовых наборов данных TextAtlasEval, улучшенных людьми, по 3 областям данных, устанавливая один из самых обширных бенчмарков для генерации изображений, зависящей от текста. Оценки показывают, что бенчмарки TextAtlasEval представляют существенные вызовы даже для самых передовых закрытых моделей (например, GPT4o с DallE-3), в то время как их открытые аналоги показывают еще большую разницу в производительности. Эти доказательства позиционируют TextAtlas5M как ценный набор данных для обучения и оценки моделей генерации изображений, зависящих от текста, будущего поколения.

English

Text-conditioned image generation has gained significant attention in recent years and are processing increasingly longer and comprehensive text prompt. In everyday life, dense and intricate text appears in contexts like advertisements, infographics, and signage, where the integration of both text and visuals is essential for conveying complex information. However, despite these advances, the generation of images containing long-form text remains a persistent challenge, largely due to the limitations of existing datasets, which often focus on shorter and simpler text. To address this gap, we introduce TextAtlas5M, a novel dataset specifically designed to evaluate long-text rendering in text-conditioned image generation. Our dataset consists of 5 million long-text generated and collected images across diverse data types, enabling comprehensive evaluation of large-scale generative models on long-text image generation. We further curate 3000 human-improved test set TextAtlasEval across 3 data domains, establishing one of the most extensive benchmarks for text-conditioned generation. Evaluations suggest that the TextAtlasEval benchmarks present significant challenges even for the most advanced proprietary models (e.g. GPT4o with DallE-3), while their open-source counterparts show an even larger performance gap. These evidences position TextAtlas5M as a valuable dataset for training and evaluating future-generation text-conditioned image generation models.