FLUX-Reason-6M y PRISM-Bench: Un Conjunto de Datos de Razonamiento Texto-Imagen a Escala de Millones y un Punto de Referencia Integral
FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark
September 11, 2025
Autores: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li
cs.AI
Resumen
El avance de los modelos de texto a imagen (T2I) de código abierto se ha visto obstaculizado por la ausencia de conjuntos de datos a gran escala centrados en el razonamiento y de puntos de referencia de evaluación integrales, lo que ha resultado en una brecha de rendimiento en comparación con los sistemas líderes de código cerrado. Para abordar este desafío, presentamos FLUX-Reason-6M y PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M es un conjunto de datos masivo que consta de 6 millones de imágenes de alta calidad generadas por FLUX y 20 millones de descripciones bilingües (inglés y chino) diseñadas específicamente para enseñar razonamiento complejo. Las imágenes están organizadas según seis características clave: Imaginación, Entidad, Renderización de texto, Estilo, Afecto y Composición, y se ha diseñado una Cadena de Pensamiento de Generación (GCoT) explícita para proporcionar desgloses detallados de los pasos de generación de imágenes. La curaduría completa de los datos tomó 15,000 días de GPU A100, proporcionando a la comunidad un recurso previamente inalcanzable fuera de los grandes laboratorios industriales. PRISM-Bench ofrece un estándar de evaluación novedoso con siete pistas distintas, incluyendo un desafío formidable de Texto Largo utilizando GCoT. A través de indicaciones cuidadosamente diseñadas, utiliza modelos avanzados de visión y lenguaje para una evaluación matizada y alineada con el ser humano de la alineación entre la indicación y la imagen, así como de la estética de la imagen. Nuestra evaluación extensiva de 19 modelos líderes en PRISM-Bench revela brechas críticas de rendimiento y destaca áreas específicas que requieren mejora. Nuestro conjunto de datos, punto de referencia y código de evaluación se han liberado para catalizar la próxima ola de generación T2I orientada al razonamiento. Página del proyecto: https://flux-reason-6m.github.io/.
English
The advancement of open-source text-to-image (T2I) models has been hindered
by the absence of large-scale, reasoning-focused datasets and comprehensive
evaluation benchmarks, resulting in a performance gap compared to leading
closed-source systems. To address this challenge, We introduce FLUX-Reason-6M
and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark).
FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality
FLUX-generated images and 20 million bilingual (English and Chinese)
descriptions specifically designed to teach complex reasoning. The image are
organized according to six key characteristics: Imagination, Entity, Text
rendering, Style, Affection, and Composition, and design explicit Generation
Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation
steps. The whole data curation takes 15,000 A100 GPU days, providing the
community with a resource previously unattainable outside of large industrial
labs. PRISM-Bench offers a novel evaluation standard with seven distinct
tracks, including a formidable Long Text challenge using GCoT. Through
carefully designed prompts, it utilizes advanced vision-language models for
nuanced human-aligned assessment of prompt-image alignment and image
aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench
reveals critical performance gaps and highlights specific areas requiring
improvement. Our dataset, benchmark, and evaluation code are released to
catalyze the next wave of reasoning-oriented T2I generation. Project page:
https://flux-reason-6m.github.io/ .