OneIG-Bench: 이미지 생성을 위한 다차원적 세부 평가
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation
June 9, 2025
저자: Jingjing Chang, Yixiao Fang, Peng Xing, Shuhan Wu, Wei Cheng, Rui Wang, Xianfang Zeng, Gang Yu, Hai-Bao Chen
cs.AI
초록
텍스트-이미지(T2I) 모델은 텍스트 프롬프트와 일치하는 고품질 이미지를 생성하는 데 있어 상당한 관심을 받고 있다. 그러나 T2I 모델의 급속한 발전은 초기 벤치마크의 한계를 드러내며, 예를 들어 추론, 텍스트 렌더링 및 스타일 평가와 같은 포괄적인 평가가 부족하다는 점을 보여준다. 특히, 최신 최첨단 모델들은 풍부한 지식 모델링 능력으로 강력한 추론 능력이 필요한 이미지 생성 문제에서 유망한 결과를 보여주고 있지만, 기존 평가 시스템은 이러한 최전선을 충분히 다루지 못하고 있다. 이러한 격차를 체계적으로 해결하기 위해, 우리는 OneIG-Bench를 소개한다. 이는 프롬프트-이미지 정렬, 텍스트 렌더링 정확도, 추론 생성 콘텐츠, 스타일화 및 다양성 등 다차원에 걸친 T2I 모델의 세밀한 평가를 위한 신중하게 설계된 포괄적인 벤치마크 프레임워크이다. 이 벤치마크는 평가를 구조화함으로써 모델 성능에 대한 심층적인 분석을 가능하게 하여, 연구자와 실무자가 이미지 생성의 전체 파이프라인에서 강점과 병목 현상을 정확히 파악할 수 있도록 돕는다. 구체적으로, OneIG-Bench는 사용자가 특정 평가 하위 집합에 집중할 수 있도록 유연한 평가를 가능하게 한다. 전체 프롬프트 세트에 대한 이미지를 생성하는 대신, 사용자는 선택한 차원과 관련된 프롬프트에 대해서만 이미지를 생성하고 그에 따라 해당 평가를 완료할 수 있다. 우리의 코드베이스와 데이터셋은 이제 T2I 연구 커뮤니티 내에서 재현 가능한 평가 연구 및 교차 모델 비교를 용이하게 하기 위해 공개적으로 이용 가능하다.
English
Text-to-image (T2I) models have garnered significant attention for generating
high-quality images aligned with text prompts. However, rapid T2I model
advancements reveal limitations in early benchmarks, lacking comprehensive
evaluations, for example, the evaluation on reasoning, text rendering and
style. Notably, recent state-of-the-art models, with their rich knowledge
modeling capabilities, show promising results on the image generation problems
requiring strong reasoning ability, yet existing evaluation systems have not
adequately addressed this frontier. To systematically address these gaps, we
introduce OneIG-Bench, a meticulously designed comprehensive benchmark
framework for fine-grained evaluation of T2I models across multiple dimensions,
including prompt-image alignment, text rendering precision, reasoning-generated
content, stylization, and diversity. By structuring the evaluation, this
benchmark enables in-depth analysis of model performance, helping researchers
and practitioners pinpoint strengths and bottlenecks in the full pipeline of
image generation. Specifically, OneIG-Bench enables flexible evaluation by
allowing users to focus on a particular evaluation subset. Instead of
generating images for the entire set of prompts, users can generate images only
for the prompts associated with the selected dimension and complete the
corresponding evaluation accordingly. Our codebase and dataset are now publicly
available to facilitate reproducible evaluation studies and cross-model
comparisons within the T2I research community.