ChatPaper.aiChatPaper

FLUX-Reason-6M и PRISM-Bench: Масштабный набор данных для текстово-визуального рассуждения и всеобъемлющий бенчмарк

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

September 11, 2025
Авторы: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li
cs.AI

Аннотация

Развитие открытых моделей преобразования текста в изображение (Text-to-Image, T2I) сдерживалось отсутствием крупномасштабных наборов данных, ориентированных на логическое рассуждение, и всеобъемлющих эталонов оценки, что привело к отставанию в производительности по сравнению с ведущими закрытыми системами. Для решения этой проблемы мы представляем FLUX-Reason-6M и PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M — это масштабный набор данных, состоящий из 6 миллионов высококачественных изображений, сгенерированных с помощью FLUX, и 20 миллионов двуязычных (английских и китайских) описаний, специально разработанных для обучения сложным логическим рассуждениям. Изображения организованы в соответствии с шестью ключевыми характеристиками: Воображение, Сущность, Визуализация текста, Стиль, Эмоциональность и Композиция, а также включают явные цепочки рассуждений для генерации (Generation Chain-of-Thought, GCoT), которые предоставляют детальное описание шагов создания изображений. Процесс подготовки данных занял 15 000 дней работы на GPU A100, предоставив сообществу ресурс, ранее недоступный за пределами крупных промышленных лабораторий. PRISM-Bench предлагает новый стандарт оценки с семью различными направлениями, включая сложное задание на работу с длинными текстами с использованием GCoT. С помощью тщательно разработанных запросов он использует передовые модели обработки изображений и текста для детальной оценки соответствия запроса и изображения, а также эстетики изображения, согласованной с человеческим восприятием. Наше всестороннее тестирование 19 ведущих моделей на PRISM-Bench выявило критические пробелы в производительности и определило конкретные области, требующие улучшения. Наш набор данных, эталон и код оценки опубликованы для стимулирования следующего этапа развития генерации изображений, ориентированной на логическое рассуждение. Страница проекта: https://flux-reason-6m.github.io/.
English
The advancement of open-source text-to-image (T2I) models has been hindered by the absence of large-scale, reasoning-focused datasets and comprehensive evaluation benchmarks, resulting in a performance gap compared to leading closed-source systems. To address this challenge, We introduce FLUX-Reason-6M and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality FLUX-generated images and 20 million bilingual (English and Chinese) descriptions specifically designed to teach complex reasoning. The image are organized according to six key characteristics: Imagination, Entity, Text rendering, Style, Affection, and Composition, and design explicit Generation Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation steps. The whole data curation takes 15,000 A100 GPU days, providing the community with a resource previously unattainable outside of large industrial labs. PRISM-Bench offers a novel evaluation standard with seven distinct tracks, including a formidable Long Text challenge using GCoT. Through carefully designed prompts, it utilizes advanced vision-language models for nuanced human-aligned assessment of prompt-image alignment and image aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench reveals critical performance gaps and highlights specific areas requiring improvement. Our dataset, benchmark, and evaluation code are released to catalyze the next wave of reasoning-oriented T2I generation. Project page: https://flux-reason-6m.github.io/ .
PDF292September 12, 2025