TextAtlas5M: un dataset su larga scala per la generazione di immagini di testo denso
TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation
February 11, 2025
Autori: Alex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li
cs.AI
Abstract
La generazione di immagini condizionata dal testo ha guadagnato notevole attenzione negli ultimi anni e sta elaborando prompt di testo sempre più lunghi e dettagliati. Nella vita quotidiana, testi densi e intricati compaiono in contesti come pubblicità, infografiche e segnaletica, dove l'integrazione sia del testo che delle immagini è essenziale per trasmettere informazioni complesse. Tuttavia, nonostante questi progressi, la generazione di immagini contenenti testo di lunghezza estesa rimane una sfida persistente, in gran parte a causa delle limitazioni dei dataset esistenti, che spesso si concentrano su testi più brevi e semplici. Per affrontare questa lacuna, presentiamo TextAtlas5M, un nuovo dataset appositamente progettato per valutare la resa del testo di lunghezza estesa nella generazione di immagini condizionate dal testo. Il nostro dataset è composto da 5 milioni di immagini generate e raccolte con testi lunghi di diversi tipi di dati, consentendo una valutazione completa dei modelli generativi su larga scala nella generazione di immagini con testo di lunghezza estesa. Curiamo inoltre un set di test TextAtlasEval migliorato dall'uomo, composto da 3000 campioni attraverso 3 domini di dati, stabilendo uno dei benchmark più ampi per la generazione condizionata dal testo. Le valutazioni suggeriscono che i benchmark di TextAtlasEval presentano sfide significative anche per i modelli proprietari più avanzati (ad es. GPT4o con DallE-3), mentre le controparti open-source mostrano un divario prestazionale ancora più ampio. Queste evidenze posizionano TextAtlas5M come un dataset prezioso per addestrare e valutare modelli di generazione di immagini condizionati dal testo di prossima generazione.
English
Text-conditioned image generation has gained significant attention in recent
years and are processing increasingly longer and comprehensive text prompt. In
everyday life, dense and intricate text appears in contexts like
advertisements, infographics, and signage, where the integration of both text
and visuals is essential for conveying complex information. However, despite
these advances, the generation of images containing long-form text remains a
persistent challenge, largely due to the limitations of existing datasets,
which often focus on shorter and simpler text. To address this gap, we
introduce TextAtlas5M, a novel dataset specifically designed to evaluate
long-text rendering in text-conditioned image generation. Our dataset consists
of 5 million long-text generated and collected images across diverse data
types, enabling comprehensive evaluation of large-scale generative models on
long-text image generation. We further curate 3000 human-improved test set
TextAtlasEval across 3 data domains, establishing one of the most extensive
benchmarks for text-conditioned generation. Evaluations suggest that the
TextAtlasEval benchmarks present significant challenges even for the most
advanced proprietary models (e.g. GPT4o with DallE-3), while their open-source
counterparts show an even larger performance gap. These evidences position
TextAtlas5M as a valuable dataset for training and evaluating future-generation
text-conditioned image generation models.Summary
AI-Generated Summary