FLUX-Reason-6M & PRISM-Bench: Um Conjunto de Dados de Raciocínio Texto-Imagem em Escala de Milhões e um Benchmark Abrangente
FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark
September 11, 2025
Autores: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li
cs.AI
Resumo
O avanço dos modelos de texto para imagem (T2I) de código aberto tem sido prejudicado pela ausência de conjuntos de dados em grande escala focados em raciocínio e benchmarks de avaliação abrangentes, resultando em uma lacuna de desempenho em comparação com os principais sistemas de código fechado. Para enfrentar esse desafio, introduzimos o FLUX-Reason-6M e o PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). O FLUX-Reason-6M é um conjunto de dados massivo composto por 6 milhões de imagens de alta qualidade geradas pelo FLUX e 20 milhões de descrições bilíngues (inglês e chinês) projetadas especificamente para ensinar raciocínio complexo. As imagens são organizadas de acordo com seis características principais: Imaginação, Entidade, Renderização de Texto, Estilo, Afeto e Composição, e incluem uma Cadeia de Pensamento de Geração (GCoT) explícita para fornecer detalhamentos passo a passo da geração de imagens. Toda a curadoria dos dados consumiu 15.000 dias de GPU A100, oferecendo à comunidade um recurso anteriormente inacessível fora de grandes laboratórios industriais. O PRISM-Bench oferece um novo padrão de avaliação com sete trilhas distintas, incluindo um desafio formidável de Texto Longo utilizando GCoT. Por meio de prompts cuidadosamente projetados, ele utiliza modelos avançados de visão e linguagem para uma avaliação sutil e alinhada com o ser humano, tanto no alinhamento prompt-imagem quanto na estética da imagem. Nossa avaliação extensiva de 19 modelos líderes no PRISM-Bench revela lacunas críticas de desempenho e destaca áreas específicas que necessitam de melhoria. Nosso conjunto de dados, benchmark e código de avaliação são disponibilizados para catalisar a próxima onda de geração T2I orientada para o raciocínio. Página do projeto: https://flux-reason-6m.github.io/.
English
The advancement of open-source text-to-image (T2I) models has been hindered
by the absence of large-scale, reasoning-focused datasets and comprehensive
evaluation benchmarks, resulting in a performance gap compared to leading
closed-source systems. To address this challenge, We introduce FLUX-Reason-6M
and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark).
FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality
FLUX-generated images and 20 million bilingual (English and Chinese)
descriptions specifically designed to teach complex reasoning. The image are
organized according to six key characteristics: Imagination, Entity, Text
rendering, Style, Affection, and Composition, and design explicit Generation
Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation
steps. The whole data curation takes 15,000 A100 GPU days, providing the
community with a resource previously unattainable outside of large industrial
labs. PRISM-Bench offers a novel evaluation standard with seven distinct
tracks, including a formidable Long Text challenge using GCoT. Through
carefully designed prompts, it utilizes advanced vision-language models for
nuanced human-aligned assessment of prompt-image alignment and image
aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench
reveals critical performance gaps and highlights specific areas requiring
improvement. Our dataset, benchmark, and evaluation code are released to
catalyze the next wave of reasoning-oriented T2I generation. Project page:
https://flux-reason-6m.github.io/ .