ChatPaper.aiChatPaper

FLUX-Reason-6M & PRISM-Bench: Ein Millionen-großer Datensatz und umfassender Benchmark für textbasierte Bildgenerierung und -analyse

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

September 11, 2025
papers.authors: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li
cs.AI

papers.abstract

Die Weiterentwicklung von Open-Source-Text-zu-Bild (T2I)-Modellen wurde durch das Fehlen groß angelegter, auf logisches Denken ausgerichteter Datensätze und umfassender Evaluierungsbenchmarks behindert, was zu einer Leistungslücke im Vergleich zu führenden Closed-Source-Systemen führte. Um diese Herausforderung zu bewältigen, stellen wir FLUX-Reason-6M und PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark) vor. FLUX-Reason-6M ist ein umfangreicher Datensatz, der aus 6 Millionen hochwertigen, FLUX-generierten Bildern und 20 Millionen zweisprachigen (Englisch und Chinesisch) Beschreibungen besteht, die speziell zur Vermittlung komplexer Denkprozesse entwickelt wurden. Die Bilder sind nach sechs Schlüsselmerkmalen organisiert: Imagination, Entität, Textdarstellung, Stil, Emotion und Komposition, und es wird ein expliziter Generation Chain-of-Thought (GCoT) entworfen, um detaillierte Aufschlüsselungen der Bildgenerierungsschritte zu liefern. Die gesamte Datenkuratierung nimmt 15.000 A100-GPU-Tage in Anspruch und stellt der Community eine Ressource zur Verfügung, die bisher außerhalb großer Industrielabore unerreichbar war. PRISM-Bench bietet einen neuartigen Evaluierungsstandard mit sieben verschiedenen Kategorien, darunter eine anspruchsvolle Long-Text-Herausforderung unter Verwendung von GCoT. Durch sorgfältig gestaltete Prompts nutzt es fortschrittliche Vision-Sprache-Modelle für eine differenzierte, menschenähnliche Bewertung der Prompt-Bild-Ausrichtung und der Bildästhetik. Unsere umfangreiche Evaluierung von 19 führenden Modellen auf PRISM-Bench deckt kritische Leistungslücken auf und hebt spezifische Bereiche hervor, die Verbesserungen erfordern. Unser Datensatz, Benchmark und Evaluierungscode werden veröffentlicht, um die nächste Welle der auf logisches Denken ausgerichteten T2I-Generation zu katalysieren. Projektseite: https://flux-reason-6m.github.io/.
English
The advancement of open-source text-to-image (T2I) models has been hindered by the absence of large-scale, reasoning-focused datasets and comprehensive evaluation benchmarks, resulting in a performance gap compared to leading closed-source systems. To address this challenge, We introduce FLUX-Reason-6M and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality FLUX-generated images and 20 million bilingual (English and Chinese) descriptions specifically designed to teach complex reasoning. The image are organized according to six key characteristics: Imagination, Entity, Text rendering, Style, Affection, and Composition, and design explicit Generation Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation steps. The whole data curation takes 15,000 A100 GPU days, providing the community with a resource previously unattainable outside of large industrial labs. PRISM-Bench offers a novel evaluation standard with seven distinct tracks, including a formidable Long Text challenge using GCoT. Through carefully designed prompts, it utilizes advanced vision-language models for nuanced human-aligned assessment of prompt-image alignment and image aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench reveals critical performance gaps and highlights specific areas requiring improvement. Our dataset, benchmark, and evaluation code are released to catalyze the next wave of reasoning-oriented T2I generation. Project page: https://flux-reason-6m.github.io/ .
PDF292September 12, 2025