FLUX-Reason-6M & PRISM-Bench : Un jeu de données d’un million d’exemples pour le raisonnement texte-image et un benchmark complet
FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark
September 11, 2025
papers.authors: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li
cs.AI
papers.abstract
Le progrès des modèles open-source de génération d’images à partir de texte (T2I) a été entravé par l’absence de jeux de données à grande échelle axés sur le raisonnement et de benchmarks d’évaluation complets, ce qui a creusé un écart de performance par rapport aux systèmes propriétaires leaders. Pour relever ce défi, nous introduisons FLUX-Reason-6M et PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M est un jeu de données massif comprenant 6 millions d’images de haute qualité générées par FLUX et 20 millions de descriptions bilingues (anglais et chinois) spécialement conçues pour enseigner le raisonnement complexe. Les images sont organisées selon six caractéristiques clés : Imagination, Entité, Rendu de texte, Style, Affection et Composition, et un processus explicite de Chaîne de Pensée de Génération (GCoT) est mis en place pour fournir des décompositions détaillées des étapes de génération d’images. La curation complète des données a nécessité 15 000 jours de calcul sur des GPU A100, offrant à la communauté une ressource jusqu’alors inaccessible en dehors des grands laboratoires industriels. PRISM-Bench propose une norme d’évaluation novatrice avec sept pistes distinctes, incluant un défi redoutable de Texte Long utilisant GCoT. Grâce à des prompts soigneusement conçus, il exploite des modèles avancés de vision et de langage pour une évaluation nuancée et alignée sur les critères humains de l’adéquation prompt-image et de l’esthétique des images. Notre évaluation approfondie de 19 modèles leaders sur PRISM-Bench révèle des écarts de performance critiques et met en lumière des domaines spécifiques nécessitant des améliorations. Notre jeu de données, benchmark et code d’évaluation sont publiés pour catalyser la prochaine vague de génération T2I orientée vers le raisonnement. Page du projet : https://flux-reason-6m.github.io/ .
English
The advancement of open-source text-to-image (T2I) models has been hindered
by the absence of large-scale, reasoning-focused datasets and comprehensive
evaluation benchmarks, resulting in a performance gap compared to leading
closed-source systems. To address this challenge, We introduce FLUX-Reason-6M
and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark).
FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality
FLUX-generated images and 20 million bilingual (English and Chinese)
descriptions specifically designed to teach complex reasoning. The image are
organized according to six key characteristics: Imagination, Entity, Text
rendering, Style, Affection, and Composition, and design explicit Generation
Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation
steps. The whole data curation takes 15,000 A100 GPU days, providing the
community with a resource previously unattainable outside of large industrial
labs. PRISM-Bench offers a novel evaluation standard with seven distinct
tracks, including a formidable Long Text challenge using GCoT. Through
carefully designed prompts, it utilizes advanced vision-language models for
nuanced human-aligned assessment of prompt-image alignment and image
aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench
reveals critical performance gaps and highlights specific areas requiring
improvement. Our dataset, benchmark, and evaluation code are released to
catalyze the next wave of reasoning-oriented T2I generation. Project page:
https://flux-reason-6m.github.io/ .