FLUX-Reason-6M & PRISM-Bench: Een Miljoenschaal Text-naar-Beeld Redeneer- Dataset en Uitgebreide Benchmark
FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark
September 11, 2025
Auteurs: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li
cs.AI
Samenvatting
De vooruitgang van open-source tekst-naar-beeld (T2I) modellen is belemmerd door het ontbreken van grootschalige, op redenering gerichte datasets en uitgebreide evaluatiebenchmarks, wat heeft geleid tot een prestatiekloof in vergelijking met toonaangevende closed-source systemen. Om deze uitdaging aan te pakken, introduceren we FLUX-Reason-6M en PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M is een enorme dataset die bestaat uit 6 miljoen hoogwaardige FLUX-gegenereerde afbeeldingen en 20 miljoen tweetalige (Engels en Chinees) beschrijvingen die specifiek zijn ontworpen om complexe redenering aan te leren. De afbeeldingen zijn georganiseerd volgens zes belangrijke kenmerken: Verbeelding, Entiteit, Tekstweergave, Stijl, Emotie en Compositie, en expliciete Generation Chain-of-Thought (GCoT) is ontworpen om gedetailleerde stappen van de beeldgeneratie te bieden. De gehele datacuratie heeft 15.000 A100 GPU-dagen in beslag genomen, wat de gemeenschap een bron biedt die voorheen buiten bereik was buiten grote industriële laboratoria. PRISM-Bench biedt een nieuwe evaluatiestandaard met zeven verschillende tracks, waaronder een uitdagende Long Text-uitdaging met behulp van GCoT. Door zorgvuldig ontworpen prompts maakt het gebruik van geavanceerde visie-taalmodellen voor genuanceerde, mensgerichte beoordeling van prompt-beeldovereenkomst en beeldesthetiek. Onze uitgebreide evaluatie van 19 toonaangevende modellen op PRISM-Bench onthult kritieke prestatiekloven en benadrukt specifieke gebieden die verbetering behoeven. Onze dataset, benchmark en evaluatiecode zijn vrijgegeven om de volgende golf van redeneringsgerichte T2I-generatie te stimuleren. Projectpagina: https://flux-reason-6m.github.io/.
English
The advancement of open-source text-to-image (T2I) models has been hindered
by the absence of large-scale, reasoning-focused datasets and comprehensive
evaluation benchmarks, resulting in a performance gap compared to leading
closed-source systems. To address this challenge, We introduce FLUX-Reason-6M
and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark).
FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality
FLUX-generated images and 20 million bilingual (English and Chinese)
descriptions specifically designed to teach complex reasoning. The image are
organized according to six key characteristics: Imagination, Entity, Text
rendering, Style, Affection, and Composition, and design explicit Generation
Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation
steps. The whole data curation takes 15,000 A100 GPU days, providing the
community with a resource previously unattainable outside of large industrial
labs. PRISM-Bench offers a novel evaluation standard with seven distinct
tracks, including a formidable Long Text challenge using GCoT. Through
carefully designed prompts, it utilizes advanced vision-language models for
nuanced human-aligned assessment of prompt-image alignment and image
aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench
reveals critical performance gaps and highlights specific areas requiring
improvement. Our dataset, benchmark, and evaluation code are released to
catalyze the next wave of reasoning-oriented T2I generation. Project page:
https://flux-reason-6m.github.io/ .