絶えず進化する画像モデルには、絶えず進化するベンチマークが必要である。
Constantly Improving Image Models Need Constantly Improving Benchmarks
October 16, 2025
著者: Jiaxin Ge, Grace Luo, Heekyung Lee, Nishant Malpani, Long Lian, XuDong Wang, Aleksander Holynski, Trevor Darrell, Sewon Min, David M. Chan
cs.AI
要旨
最近の画像生成技術の進歩、特にGPT-4o Image Genのような独自システムによって、ユーザーがこれらのモデルとどのように関わるかが定期的に再定義されています。既存のベンチマークはしばしば遅れをとり、これらの新たなユースケースを捉えられず、コミュニティの進歩に対する認識と正式な評価との間にギャップを生んでいます。この問題に対処するため、私たちはECHOを提案します。これは、モデルの使用に関する実世界の証拠、つまり新しいプロンプトと定性的なユーザー評価を紹介するソーシャルメディアの投稿から直接ベンチマークを構築するフレームワークです。このフレームワークをGPT-4o Image Genに適用し、そのような投稿からキュレーションされた31,000以上のプロンプトのデータセットを構築しました。私たちの分析によると、ECHOは(1)既存のベンチマークにはない創造的で複雑なタスク(例えば、言語を超えた製品ラベルの再レンダリングや指定された合計金額の領収書の生成)を発見し、(2)最先端のモデルと代替モデルをより明確に区別し、(3)モデルの品質を測定するための指標(例えば、観察された色、アイデンティティ、構造の変化を測定する)の設計に役立つコミュニティのフィードバックを浮き彫りにします。私たちのウェブサイトはhttps://echo-bench.github.ioにあります。
English
Recent advances in image generation, often driven by proprietary systems like
GPT-4o Image Gen, regularly introduce new capabilities that reshape how users
interact with these models. Existing benchmarks often lag behind and fail to
capture these emerging use cases, leaving a gap between community perceptions
of progress and formal evaluation. To address this, we present ECHO, a
framework for constructing benchmarks directly from real-world evidence of
model use: social media posts that showcase novel prompts and qualitative user
judgments. Applying this framework to GPT-4o Image Gen, we construct a dataset
of over 31,000 prompts curated from such posts. Our analysis shows that ECHO
(1) discovers creative and complex tasks absent from existing benchmarks, such
as re-rendering product labels across languages or generating receipts with
specified totals, (2) more clearly distinguishes state-of-the-art models from
alternatives, and (3) surfaces community feedback that we use to inform the
design of metrics for model quality (e.g., measuring observed shifts in color,
identity, and structure). Our website is at https://echo-bench.github.io.