I modelli di elaborazione delle immagini in costante miglioramento richiedono benchmark in costante miglioramento.
Constantly Improving Image Models Need Constantly Improving Benchmarks
October 16, 2025
Autori: Jiaxin Ge, Grace Luo, Heekyung Lee, Nishant Malpani, Long Lian, XuDong Wang, Aleksander Holynski, Trevor Darrell, Sewon Min, David M. Chan
cs.AI
Abstract
I recenti progressi nella generazione di immagini, spesso guidati da sistemi proprietari come GPT-4o Image Gen, introducono regolarmente nuove capacità che ridefiniscono il modo in cui gli utenti interagiscono con questi modelli. I benchmark esistenti spesso rimangono indietro e non riescono a cogliere questi casi d'uso emergenti, creando un divario tra le percezioni della comunità sui progressi e la valutazione formale. Per affrontare questo problema, presentiamo ECHO, un framework per costruire benchmark direttamente da evidenze del mondo reale sull'uso dei modelli: post sui social media che mostrano prompt innovativi e giudizi qualitativi degli utenti. Applicando questo framework a GPT-4o Image Gen, abbiamo costruito un dataset di oltre 31.000 prompt curati da tali post. La nostra analisi dimostra che ECHO (1) scopre compiti creativi e complessi assenti nei benchmark esistenti, come il re-rendering di etichette di prodotti in diverse lingue o la generazione di ricevute con totali specificati, (2) distingue più chiaramente i modelli all'avanguardia dalle alternative, e (3) evidenzia il feedback della comunità che utilizziamo per informare la progettazione di metriche per la qualità del modello (ad esempio, misurando i cambiamenti osservati nel colore, nell'identità e nella struttura). Il nostro sito web è disponibile all'indirizzo https://echo-bench.github.io.
English
Recent advances in image generation, often driven by proprietary systems like
GPT-4o Image Gen, regularly introduce new capabilities that reshape how users
interact with these models. Existing benchmarks often lag behind and fail to
capture these emerging use cases, leaving a gap between community perceptions
of progress and formal evaluation. To address this, we present ECHO, a
framework for constructing benchmarks directly from real-world evidence of
model use: social media posts that showcase novel prompts and qualitative user
judgments. Applying this framework to GPT-4o Image Gen, we construct a dataset
of over 31,000 prompts curated from such posts. Our analysis shows that ECHO
(1) discovers creative and complex tasks absent from existing benchmarks, such
as re-rendering product labels across languages or generating receipts with
specified totals, (2) more clearly distinguishes state-of-the-art models from
alternatives, and (3) surfaces community feedback that we use to inform the
design of metrics for model quality (e.g., measuring observed shifts in color,
identity, and structure). Our website is at https://echo-bench.github.io.