ChatPaper.aiChatPaper

TextAtlas5M: Een grootschalige dataset voor het genereren van dichte tekstafbeeldingen

TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

February 11, 2025
Auteurs: Alex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li
cs.AI

Samenvatting

Tekst-geconditioneerde beeldgeneratie heeft de afgelopen jaren aanzienlijke aandacht gekregen en verwerkt steeds langere en uitgebreidere tekstprompt. In het dagelijks leven verschijnt dichte en ingewikkelde tekst in contexten zoals advertenties, infographics en bewegwijzering, waar de integratie van zowel tekst als visuele elementen essentieel is voor het overbrengen van complexe informatie. Echter, ondanks deze vooruitgang blijft de generatie van afbeeldingen met langdurige tekst een aanhoudende uitdaging, grotendeels als gevolg van de beperkingen van bestaande datasets, die zich vaak richten op kortere en eenvoudigere tekst. Om deze lacune aan te pakken, introduceren we TextAtlas5M, een nieuw dataset dat specifiek is ontworpen om langtekstweergave te evalueren in tekst-geconditioneerde beeldgeneratie. Onze dataset bestaat uit 5 miljoen langtekst gegenereerde en verzamelde afbeeldingen over diverse datatypen, waardoor een uitgebreide evaluatie van grootschalige generatieve modellen op het gebied van langtekst beeldgeneratie mogelijk is. We cureren verder 3000 menselijk verbeterde testset TextAtlasEval over 3 datadomeinen, waarmee een van de meest uitgebreide benchmarks voor tekst-geconditioneerde generatie wordt vastgesteld. Evaluaties suggereren dat de TextAtlasEval benchmarks aanzienlijke uitdagingen bieden, zelfs voor de meest geavanceerde gepatenteerde modellen (bijv. GPT4o met DallE-3), terwijl hun open-source tegenhangers zelfs een grotere prestatiekloof vertonen. Deze bewijzen positioneren TextAtlas5M als een waardevolle dataset voor het trainen en evalueren van toekomstige generatie tekst-geconditioneerde beeldgeneratiemodellen.
English
Text-conditioned image generation has gained significant attention in recent years and are processing increasingly longer and comprehensive text prompt. In everyday life, dense and intricate text appears in contexts like advertisements, infographics, and signage, where the integration of both text and visuals is essential for conveying complex information. However, despite these advances, the generation of images containing long-form text remains a persistent challenge, largely due to the limitations of existing datasets, which often focus on shorter and simpler text. To address this gap, we introduce TextAtlas5M, a novel dataset specifically designed to evaluate long-text rendering in text-conditioned image generation. Our dataset consists of 5 million long-text generated and collected images across diverse data types, enabling comprehensive evaluation of large-scale generative models on long-text image generation. We further curate 3000 human-improved test set TextAtlasEval across 3 data domains, establishing one of the most extensive benchmarks for text-conditioned generation. Evaluations suggest that the TextAtlasEval benchmarks present significant challenges even for the most advanced proprietary models (e.g. GPT4o with DallE-3), while their open-source counterparts show an even larger performance gap. These evidences position TextAtlas5M as a valuable dataset for training and evaluating future-generation text-conditioned image generation models.

Summary

AI-Generated Summary

PDF452February 13, 2025