ChatPaper.aiChatPaper

TextAtlas5M: Ein Datensatz im großen Maßstab für die Generierung dichter Textbildern

TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

February 11, 2025
Autoren: Alex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li
cs.AI

Zusammenfassung

Die bildbasierte Textgenerierung hat in den letzten Jahren erhebliche Aufmerksamkeit erlangt und verarbeitet zunehmend längere und umfassendere Textvorgaben. Im Alltag erscheinen dichte und komplexe Texte in Kontexten wie Werbung, Infografiken und Beschilderungen, in denen die Integration von Text und visuellen Elementen entscheidend ist, um komplexe Informationen zu vermitteln. Trotz dieser Fortschritte bleibt die Generierung von Bildern mit Langtexten eine anhaltende Herausforderung, hauptsächlich aufgrund der Einschränkungen bestehender Datensätze, die sich oft auf kürzere und einfachere Texte konzentrieren. Um diese Lücke zu schließen, stellen wir TextAtlas5M vor, einen neuartigen Datensatz, der speziell zur Bewertung der Textrendering in der bildbasierten Textgenerierung entwickelt wurde. Unser Datensatz besteht aus 5 Millionen generierten und gesammelten Bildern mit Langtexten aus verschiedenen Datentypen, was eine umfassende Bewertung von groß angelegten generativen Modellen zur Bildgenerierung mit Langtext ermöglicht. Darüber hinaus kuratieren wir 3000 menschenverbesserte Testsets TextAtlasEval über 3 Datendomänen hinweg und etablieren einen der umfangreichsten Benchmarks für die textbasierte Generierung. Bewertungen legen nahe, dass die TextAtlasEval-Benchmarks selbst für die fortschrittlichsten proprietären Modelle (z. B. GPT4o mit DallE-3) erhebliche Herausforderungen darstellen, während ihre Open-Source-Gegenstücke eine noch größere Leistungslücke aufweisen. Diese Belege positionieren TextAtlas5M als einen wertvollen Datensatz für das Training und die Bewertung von zukünftigen Modellen zur bildbasierten Textgenerierung.
English
Text-conditioned image generation has gained significant attention in recent years and are processing increasingly longer and comprehensive text prompt. In everyday life, dense and intricate text appears in contexts like advertisements, infographics, and signage, where the integration of both text and visuals is essential for conveying complex information. However, despite these advances, the generation of images containing long-form text remains a persistent challenge, largely due to the limitations of existing datasets, which often focus on shorter and simpler text. To address this gap, we introduce TextAtlas5M, a novel dataset specifically designed to evaluate long-text rendering in text-conditioned image generation. Our dataset consists of 5 million long-text generated and collected images across diverse data types, enabling comprehensive evaluation of large-scale generative models on long-text image generation. We further curate 3000 human-improved test set TextAtlasEval across 3 data domains, establishing one of the most extensive benchmarks for text-conditioned generation. Evaluations suggest that the TextAtlasEval benchmarks present significant challenges even for the most advanced proprietary models (e.g. GPT4o with DallE-3), while their open-source counterparts show an even larger performance gap. These evidences position TextAtlas5M as a valuable dataset for training and evaluating future-generation text-conditioned image generation models.

Summary

AI-Generated Summary

PDF452February 13, 2025