FLUX-Reason-6M & PRISM-Bench: Un Dataset su Scala Milionaria per il Ragionamento da Testo a Immagine e un Benchmark Completo

Abstract

Il progresso dei modelli open-source di generazione di immagini da testo (T2I) è stato ostacolato dall'assenza di dataset su larga scala focalizzati sul ragionamento e di benchmark di valutazione completi, determinando un divario prestazionale rispetto ai principali sistemi closed-source. Per affrontare questa sfida, introduciamo FLUX-Reason-6M e PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M è un dataset massiccio composto da 6 milioni di immagini di alta qualità generate da FLUX e 20 milioni di descrizioni bilingue (inglese e cinese) progettate specificamente per insegnare ragionamenti complessi. Le immagini sono organizzate secondo sei caratteristiche chiave: Immaginazione, Entità, Rendering del testo, Stile, Affezione e Composizione, e includono una dettagliata Catena di Pensiero per la Generazione (GCoT) che fornisce una suddivisione precisa dei passaggi di generazione delle immagini. L'intera curatela dei dati ha richiesto 15.000 giorni di GPU A100, offrendo alla comunità una risorsa precedentemente irraggiungibile al di fuori dei grandi laboratori industriali. PRISM-Bench propone un nuovo standard di valutazione con sette tracce distinte, inclusa una sfida impegnativa con Testo Lungo utilizzando GCoT. Attraverso prompt progettati con cura, sfrutta modelli avanzati di visione e linguaggio per una valutazione sfumata e allineata all'umano dell'allineamento prompt-immagine e dell'estetica delle immagini. La nostra valutazione estesa di 19 modelli leader su PRISM-Bench rivela divari prestazionali critici e mette in luce aree specifiche che richiedono miglioramenti. Il nostro dataset, benchmark e codice di valutazione sono rilasciati per catalizzare la prossima ondata di generazione T2I orientata al ragionamento. Pagina del progetto: https://flux-reason-6m.github.io/.

English

The advancement of open-source text-to-image (T2I) models has been hindered by the absence of large-scale, reasoning-focused datasets and comprehensive evaluation benchmarks, resulting in a performance gap compared to leading closed-source systems. To address this challenge, We introduce FLUX-Reason-6M and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality FLUX-generated images and 20 million bilingual (English and Chinese) descriptions specifically designed to teach complex reasoning. The image are organized according to six key characteristics: Imagination, Entity, Text rendering, Style, Affection, and Composition, and design explicit Generation Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation steps. The whole data curation takes 15,000 A100 GPU days, providing the community with a resource previously unattainable outside of large industrial labs. PRISM-Bench offers a novel evaluation standard with seven distinct tracks, including a formidable Long Text challenge using GCoT. Through carefully designed prompts, it utilizes advanced vision-language models for nuanced human-aligned assessment of prompt-image alignment and image aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench reveals critical performance gaps and highlights specific areas requiring improvement. Our dataset, benchmark, and evaluation code are released to catalyze the next wave of reasoning-oriented T2I generation. Project page: https://flux-reason-6m.github.io/ .

FLUX-Reason-6M & PRISM-Bench: Un Dataset su Scala Milionaria per il Ragionamento da Testo a Immagine e un Benchmark Completo

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

Abstract

Support