지속적으로 개선되는 이미지 모델은 지속적으로 개선되는 벤치마크를 필요로 한다.
Constantly Improving Image Models Need Constantly Improving Benchmarks
October 16, 2025
저자: Jiaxin Ge, Grace Luo, Heekyung Lee, Nishant Malpani, Long Lian, XuDong Wang, Aleksander Holynski, Trevor Darrell, Sewon Min, David M. Chan
cs.AI
초록
최근 GPT-4o Image Gen과 같은 독점 시스템에 의해 주도되는 이미지 생성 분야의 발전은 사용자가 이러한 모델과 상호작용하는 방식을 지속적으로 재구성하고 있습니다. 기존 벤치마크는 이러한 새로운 사용 사례를 따라잡지 못하고 포착하지 못함으로써, 커뮤니티가 인식하는 진전과 공식 평가 간의 격차를 남기고 있습니다. 이를 해결하기 위해, 우리는 ECHO를 제안합니다. ECHO는 모델 사용의 실제 증거(새로운 프롬프트와 사용자의 질적 판단을 보여주는 소셜 미디어 게시물)로부터 직접 벤치마크를 구축하는 프레임워크입니다. 이 프레임워크를 GPT-4o Image Gen에 적용하여, 우리는 이러한 게시물에서 선별한 31,000개 이상의 프롬프트 데이터셋을 구축했습니다. 우리의 분석은 ECHO가 (1) 기존 벤치마크에서 누락된 창의적이고 복잡한 작업(예: 제품 라벨을 여러 언어로 재렌더링하거나 지정된 총액이 포함된 영수증 생성)을 발견하고, (2) 최첨단 모델과 대안 모델을 더 명확하게 구분하며, (3) 모델 품질을 측정하기 위한 지표 설계에 활용할 수 있는 커뮤니티 피드백(예: 관찰된 색상, 정체성, 구조의 변화 측정)을 표면화한다는 것을 보여줍니다. 우리의 웹사이트는 https://echo-bench.github.io에서 확인할 수 있습니다.
English
Recent advances in image generation, often driven by proprietary systems like
GPT-4o Image Gen, regularly introduce new capabilities that reshape how users
interact with these models. Existing benchmarks often lag behind and fail to
capture these emerging use cases, leaving a gap between community perceptions
of progress and formal evaluation. To address this, we present ECHO, a
framework for constructing benchmarks directly from real-world evidence of
model use: social media posts that showcase novel prompts and qualitative user
judgments. Applying this framework to GPT-4o Image Gen, we construct a dataset
of over 31,000 prompts curated from such posts. Our analysis shows that ECHO
(1) discovers creative and complex tasks absent from existing benchmarks, such
as re-rendering product labels across languages or generating receipts with
specified totals, (2) more clearly distinguishes state-of-the-art models from
alternatives, and (3) surfaces community feedback that we use to inform the
design of metrics for model quality (e.g., measuring observed shifts in color,
identity, and structure). Our website is at https://echo-bench.github.io.