ChatPaper.aiChatPaper

FLUX-Reason-6M & PRISM-Bench: 백만 규모 텍스트-이미지 추론 데이터셋 및 포괄적 벤치마크

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

September 11, 2025
저자: Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li
cs.AI

초록

오픈소스 텍스트-이미지(T2I) 모델의 발전은 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재로 인해 더딘 속도를 보여왔으며, 이는 선도적인 클로즈드소스 시스템과의 성능 격차로 이어졌습니다. 이러한 문제를 해결하기 위해, 우리는 FLUX-Reason-6M과 PRISM-Bench(Precise and Robust Image Synthesis Measurement Benchmark)를 소개합니다. FLUX-Reason-6M은 600만 개의 고품질 FLUX 생성 이미지와 2,000만 개의 이중 언어(영어와 중국어) 설명으로 구성된 대규모 데이터셋으로, 복잡한 추론을 가르치기 위해 특별히 설계되었습니다. 이미지는 상상력(Imagination), 개체(Entity), 텍스트 렌더링(Text Rendering), 스타일(Style), 감정(Affection), 구성(Composition)이라는 여섯 가지 주요 특성에 따라 구성되었으며, 명시적인 생성 사고 연쇄(Generation Chain-of-Thought, GCoT)를 설계하여 이미지 생성 단계를 상세히 설명합니다. 전체 데이터 큐레이션에는 15,000 A100 GPU 일이 소요되었으며, 이는 대규모 산업 연구실 외부에서는 이전에 얻을 수 없었던 자원을 커뮤니티에 제공합니다. PRISM-Bench는 GCoT를 사용한 도전적인 장문(Long Text) 문제를 포함한 7개의 독특한 트랙으로 구성된 새로운 평가 표준을 제공합니다. 신중하게 설계된 프롬프트를 통해, 이는 고급 시각-언어 모델을 활용하여 프롬프트-이미지 정렬과 이미지 미학에 대한 미묘한 인간 중심 평가를 수행합니다. PRISM-Bench에서 19개의 선도적인 모델을 대상으로 한 광범위한 평가는 중요한 성능 격차를 드러내고 개선이 필요한 특정 영역을 강조합니다. 우리의 데이터셋, 벤치마크, 평가 코드는 추론 중심의 T2I 생성의 다음 물결을 촉진하기 위해 공개되었습니다. 프로젝트 페이지: https://flux-reason-6m.github.io/ .
English
The advancement of open-source text-to-image (T2I) models has been hindered by the absence of large-scale, reasoning-focused datasets and comprehensive evaluation benchmarks, resulting in a performance gap compared to leading closed-source systems. To address this challenge, We introduce FLUX-Reason-6M and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality FLUX-generated images and 20 million bilingual (English and Chinese) descriptions specifically designed to teach complex reasoning. The image are organized according to six key characteristics: Imagination, Entity, Text rendering, Style, Affection, and Composition, and design explicit Generation Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation steps. The whole data curation takes 15,000 A100 GPU days, providing the community with a resource previously unattainable outside of large industrial labs. PRISM-Bench offers a novel evaluation standard with seven distinct tracks, including a formidable Long Text challenge using GCoT. Through carefully designed prompts, it utilizes advanced vision-language models for nuanced human-aligned assessment of prompt-image alignment and image aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench reveals critical performance gaps and highlights specific areas requiring improvement. Our dataset, benchmark, and evaluation code are released to catalyze the next wave of reasoning-oriented T2I generation. Project page: https://flux-reason-6m.github.io/ .
PDF282September 12, 2025