Les modèles d'images en constante amélioration nécessitent des benchmarks en constante amélioration.
Constantly Improving Image Models Need Constantly Improving Benchmarks
October 16, 2025
papers.authors: Jiaxin Ge, Grace Luo, Heekyung Lee, Nishant Malpani, Long Lian, XuDong Wang, Aleksander Holynski, Trevor Darrell, Sewon Min, David M. Chan
cs.AI
papers.abstract
Les récents progrès en génération d'images, souvent portés par des systèmes propriétaires comme GPT-4o Image Gen, introduisent régulièrement de nouvelles capacités qui redéfinissent la manière dont les utilisateurs interagissent avec ces modèles. Les benchmarks existants accusent souvent un retard et ne parviennent pas à capturer ces nouveaux cas d'utilisation, créant un écart entre la perception communautaire des avancées et l'évaluation formelle. Pour remédier à cela, nous présentons ECHO, un cadre permettant de construire des benchmarks directement à partir de preuves réelles d'utilisation des modèles : des publications sur les réseaux sociaux qui mettent en avant des prompts novateurs et des jugements qualitatifs des utilisateurs. En appliquant ce cadre à GPT-4o Image Gen, nous avons constitué un ensemble de données de plus de 31 000 prompts sélectionnés à partir de ces publications. Notre analyse montre qu'ECHO (1) découvre des tâches créatives et complexes absentes des benchmarks existants, comme la re-création d'étiquettes de produits dans différentes langues ou la génération de reçus avec des totaux spécifiés, (2) distingue plus clairement les modèles de pointe des alternatives, et (3) met en lumière les retours de la communauté que nous utilisons pour concevoir des métriques de qualité des modèles (par exemple, mesurer les variations observées dans la couleur, l'identité et la structure). Notre site web est accessible à l'adresse https://echo-bench.github.io.
English
Recent advances in image generation, often driven by proprietary systems like
GPT-4o Image Gen, regularly introduce new capabilities that reshape how users
interact with these models. Existing benchmarks often lag behind and fail to
capture these emerging use cases, leaving a gap between community perceptions
of progress and formal evaluation. To address this, we present ECHO, a
framework for constructing benchmarks directly from real-world evidence of
model use: social media posts that showcase novel prompts and qualitative user
judgments. Applying this framework to GPT-4o Image Gen, we construct a dataset
of over 31,000 prompts curated from such posts. Our analysis shows that ECHO
(1) discovers creative and complex tasks absent from existing benchmarks, such
as re-rendering product labels across languages or generating receipts with
specified totals, (2) more clearly distinguishes state-of-the-art models from
alternatives, and (3) surfaces community feedback that we use to inform the
design of metrics for model quality (e.g., measuring observed shifts in color,
identity, and structure). Our website is at https://echo-bench.github.io.