ChatPaper.aiChatPaper

FLUX-Reason-6M & PRISM-Bench: Um Conjunto de Dados de Raciocínio Texto-Imagem em Escala de Milhões e um Benchmark Abrangente

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

September 11, 2025
Autores: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li
cs.AI

Resumo

O avanço dos modelos de texto para imagem (T2I) de código aberto tem sido prejudicado pela ausência de conjuntos de dados em grande escala focados em raciocínio e benchmarks de avaliação abrangentes, resultando em uma lacuna de desempenho em comparação com os principais sistemas de código fechado. Para enfrentar esse desafio, introduzimos o FLUX-Reason-6M e o PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). O FLUX-Reason-6M é um conjunto de dados massivo composto por 6 milhões de imagens de alta qualidade geradas pelo FLUX e 20 milhões de descrições bilíngues (inglês e chinês) projetadas especificamente para ensinar raciocínio complexo. As imagens são organizadas de acordo com seis características principais: Imaginação, Entidade, Renderização de Texto, Estilo, Afeto e Composição, e incluem uma Cadeia de Pensamento de Geração (GCoT) explícita para fornecer detalhamentos passo a passo da geração de imagens. Toda a curadoria dos dados consumiu 15.000 dias de GPU A100, oferecendo à comunidade um recurso anteriormente inacessível fora de grandes laboratórios industriais. O PRISM-Bench oferece um novo padrão de avaliação com sete trilhas distintas, incluindo um desafio formidável de Texto Longo utilizando GCoT. Por meio de prompts cuidadosamente projetados, ele utiliza modelos avançados de visão e linguagem para uma avaliação sutil e alinhada com o ser humano, tanto no alinhamento prompt-imagem quanto na estética da imagem. Nossa avaliação extensiva de 19 modelos líderes no PRISM-Bench revela lacunas críticas de desempenho e destaca áreas específicas que necessitam de melhoria. Nosso conjunto de dados, benchmark e código de avaliação são disponibilizados para catalisar a próxima onda de geração T2I orientada para o raciocínio. Página do projeto: https://flux-reason-6m.github.io/.
English
The advancement of open-source text-to-image (T2I) models has been hindered by the absence of large-scale, reasoning-focused datasets and comprehensive evaluation benchmarks, resulting in a performance gap compared to leading closed-source systems. To address this challenge, We introduce FLUX-Reason-6M and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality FLUX-generated images and 20 million bilingual (English and Chinese) descriptions specifically designed to teach complex reasoning. The image are organized according to six key characteristics: Imagination, Entity, Text rendering, Style, Affection, and Composition, and design explicit Generation Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation steps. The whole data curation takes 15,000 A100 GPU days, providing the community with a resource previously unattainable outside of large industrial labs. PRISM-Bench offers a novel evaluation standard with seven distinct tracks, including a formidable Long Text challenge using GCoT. Through carefully designed prompts, it utilizes advanced vision-language models for nuanced human-aligned assessment of prompt-image alignment and image aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench reveals critical performance gaps and highlights specific areas requiring improvement. Our dataset, benchmark, and evaluation code are released to catalyze the next wave of reasoning-oriented T2I generation. Project page: https://flux-reason-6m.github.io/ .
PDF322September 12, 2025