FLUX-Reason-6M & PRISM-Bench: Un Dataset su Scala Milionaria per il Ragionamento da Testo a Immagine e un Benchmark Completo
FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark
September 11, 2025
Autori: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li
cs.AI
Abstract
Il progresso dei modelli open-source di generazione di immagini da testo (T2I) è stato ostacolato dall'assenza di dataset su larga scala focalizzati sul ragionamento e di benchmark di valutazione completi, determinando un divario prestazionale rispetto ai principali sistemi closed-source. Per affrontare questa sfida, introduciamo FLUX-Reason-6M e PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M è un dataset massiccio composto da 6 milioni di immagini di alta qualità generate da FLUX e 20 milioni di descrizioni bilingue (inglese e cinese) progettate specificamente per insegnare ragionamenti complessi. Le immagini sono organizzate secondo sei caratteristiche chiave: Immaginazione, Entità, Rendering del testo, Stile, Affezione e Composizione, e includono una dettagliata Catena di Pensiero per la Generazione (GCoT) che fornisce una suddivisione precisa dei passaggi di generazione delle immagini. L'intera curatela dei dati ha richiesto 15.000 giorni di GPU A100, offrendo alla comunità una risorsa precedentemente irraggiungibile al di fuori dei grandi laboratori industriali. PRISM-Bench propone un nuovo standard di valutazione con sette tracce distinte, inclusa una sfida impegnativa con Testo Lungo utilizzando GCoT. Attraverso prompt progettati con cura, sfrutta modelli avanzati di visione e linguaggio per una valutazione sfumata e allineata all'umano dell'allineamento prompt-immagine e dell'estetica delle immagini. La nostra valutazione estesa di 19 modelli leader su PRISM-Bench rivela divari prestazionali critici e mette in luce aree specifiche che richiedono miglioramenti. Il nostro dataset, benchmark e codice di valutazione sono rilasciati per catalizzare la prossima ondata di generazione T2I orientata al ragionamento. Pagina del progetto: https://flux-reason-6m.github.io/.
English
The advancement of open-source text-to-image (T2I) models has been hindered
by the absence of large-scale, reasoning-focused datasets and comprehensive
evaluation benchmarks, resulting in a performance gap compared to leading
closed-source systems. To address this challenge, We introduce FLUX-Reason-6M
and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark).
FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality
FLUX-generated images and 20 million bilingual (English and Chinese)
descriptions specifically designed to teach complex reasoning. The image are
organized according to six key characteristics: Imagination, Entity, Text
rendering, Style, Affection, and Composition, and design explicit Generation
Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation
steps. The whole data curation takes 15,000 A100 GPU days, providing the
community with a resource previously unattainable outside of large industrial
labs. PRISM-Bench offers a novel evaluation standard with seven distinct
tracks, including a formidable Long Text challenge using GCoT. Through
carefully designed prompts, it utilizes advanced vision-language models for
nuanced human-aligned assessment of prompt-image alignment and image
aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench
reveals critical performance gaps and highlights specific areas requiring
improvement. Our dataset, benchmark, and evaluation code are released to
catalyze the next wave of reasoning-oriented T2I generation. Project page:
https://flux-reason-6m.github.io/ .