FLUX-Reason-6M & PRISM-Bench : Un jeu de données d’un million d’exemples pour le raisonnement texte-image et un benchmark complet

Résumé

Le progrès des modèles open-source de génération d’images à partir de texte (T2I) a été entravé par l’absence de jeux de données à grande échelle axés sur le raisonnement et de benchmarks d’évaluation complets, ce qui a creusé un écart de performance par rapport aux systèmes propriétaires leaders. Pour relever ce défi, nous introduisons FLUX-Reason-6M et PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M est un jeu de données massif comprenant 6 millions d’images de haute qualité générées par FLUX et 20 millions de descriptions bilingues (anglais et chinois) spécialement conçues pour enseigner le raisonnement complexe. Les images sont organisées selon six caractéristiques clés : Imagination, Entité, Rendu de texte, Style, Affection et Composition, et un processus explicite de Chaîne de Pensée de Génération (GCoT) est mis en place pour fournir des décompositions détaillées des étapes de génération d’images. La curation complète des données a nécessité 15 000 jours de calcul sur des GPU A100, offrant à la communauté une ressource jusqu’alors inaccessible en dehors des grands laboratoires industriels. PRISM-Bench propose une norme d’évaluation novatrice avec sept pistes distinctes, incluant un défi redoutable de Texte Long utilisant GCoT. Grâce à des prompts soigneusement conçus, il exploite des modèles avancés de vision et de langage pour une évaluation nuancée et alignée sur les critères humains de l’adéquation prompt-image et de l’esthétique des images. Notre évaluation approfondie de 19 modèles leaders sur PRISM-Bench révèle des écarts de performance critiques et met en lumière des domaines spécifiques nécessitant des améliorations. Notre jeu de données, benchmark et code d’évaluation sont publiés pour catalyser la prochaine vague de génération T2I orientée vers le raisonnement. Page du projet : https://flux-reason-6m.github.io/ .

English

The advancement of open-source text-to-image (T2I) models has been hindered by the absence of large-scale, reasoning-focused datasets and comprehensive evaluation benchmarks, resulting in a performance gap compared to leading closed-source systems. To address this challenge, We introduce FLUX-Reason-6M and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality FLUX-generated images and 20 million bilingual (English and Chinese) descriptions specifically designed to teach complex reasoning. The image are organized according to six key characteristics: Imagination, Entity, Text rendering, Style, Affection, and Composition, and design explicit Generation Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation steps. The whole data curation takes 15,000 A100 GPU days, providing the community with a resource previously unattainable outside of large industrial labs. PRISM-Bench offers a novel evaluation standard with seven distinct tracks, including a formidable Long Text challenge using GCoT. Through carefully designed prompts, it utilizes advanced vision-language models for nuanced human-aligned assessment of prompt-image alignment and image aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench reveals critical performance gaps and highlights specific areas requiring improvement. Our dataset, benchmark, and evaluation code are released to catalyze the next wave of reasoning-oriented T2I generation. Project page: https://flux-reason-6m.github.io/ .