Voortdurend verbeterende beeldmodellen hebben voortdurend verbeterende benchmarks nodig.
Constantly Improving Image Models Need Constantly Improving Benchmarks
October 16, 2025
Auteurs: Jiaxin Ge, Grace Luo, Heekyung Lee, Nishant Malpani, Long Lian, XuDong Wang, Aleksander Holynski, Trevor Darrell, Sewon Min, David M. Chan
cs.AI
Samenvatting
Recente ontwikkelingen in beeldgeneratie, vaak aangedreven door propriëtaire systemen zoals GPT-4o Image Gen, introduceren regelmatig nieuwe mogelijkheden die de manier waarop gebruikers met deze modellen interacteren, hervormen. Bestaande benchmarks blijven vaak achter en slagen er niet in deze opkomende gebruiksscenario's vast te leggen, wat een kloof creëert tussen de perceptie van vooruitgang in de gemeenschap en formele evaluatie. Om dit aan te pakken, presenteren we ECHO, een raamwerk voor het construeren van benchmarks direct op basis van real-world bewijs van modelgebruik: sociale media posts die nieuwe prompts en kwalitatieve gebruikersbeoordelingen tonen. Door dit raamwerk toe te passen op GPT-4o Image Gen, construeren we een dataset van meer dan 31.000 prompts die uit dergelijke posts zijn samengesteld. Onze analyse toont aan dat ECHO (1) creatieve en complexe taken ontdekt die afwezig zijn in bestaande benchmarks, zoals het opnieuw renderen van productlabels in verschillende talen of het genereren van bonnetjes met gespecificeerde totalen, (2) state-of-the-art modellen duidelijker onderscheidt van alternatieven, en (3) feedback uit de gemeenschap naar voren brengt die we gebruiken om de ontwerp van metrieken voor modelkwaliteit te informeren (bijvoorbeeld het meten van waargenomen verschuivingen in kleur, identiteit en structuur). Onze website is te vinden op https://echo-bench.github.io.
English
Recent advances in image generation, often driven by proprietary systems like
GPT-4o Image Gen, regularly introduce new capabilities that reshape how users
interact with these models. Existing benchmarks often lag behind and fail to
capture these emerging use cases, leaving a gap between community perceptions
of progress and formal evaluation. To address this, we present ECHO, a
framework for constructing benchmarks directly from real-world evidence of
model use: social media posts that showcase novel prompts and qualitative user
judgments. Applying this framework to GPT-4o Image Gen, we construct a dataset
of over 31,000 prompts curated from such posts. Our analysis shows that ECHO
(1) discovers creative and complex tasks absent from existing benchmarks, such
as re-rendering product labels across languages or generating receipts with
specified totals, (2) more clearly distinguishes state-of-the-art models from
alternatives, and (3) surfaces community feedback that we use to inform the
design of metrics for model quality (e.g., measuring observed shifts in color,
identity, and structure). Our website is at https://echo-bench.github.io.