ChatPaper.aiChatPaper

Ständig verbesserte Bildmodelle benötigen ständig verbesserte Benchmarks.

Constantly Improving Image Models Need Constantly Improving Benchmarks

October 16, 2025
papers.authors: Jiaxin Ge, Grace Luo, Heekyung Lee, Nishant Malpani, Long Lian, XuDong Wang, Aleksander Holynski, Trevor Darrell, Sewon Min, David M. Chan
cs.AI

papers.abstract

Jüngste Fortschritte in der Bildgenerierung, oft vorangetrieben durch proprietäre Systeme wie GPT-4o Image Gen, führen regelmäßig zu neuen Fähigkeiten, die die Art und Weise, wie Nutzer mit diesen Modellen interagieren, grundlegend verändern. Bestehende Benchmarks hinken oft hinterher und erfassen diese neu entstehenden Anwendungsfälle nicht, wodurch eine Lücke zwischen der Wahrnehmung des Fortschritts in der Community und der formalen Bewertung entsteht. Um dies zu beheben, präsentieren wir ECHO, ein Framework zur Erstellung von Benchmarks direkt aus realen Belegen der Modellnutzung: Social-Media-Posts, die neuartige Prompts und qualitative Nutzerbewertungen zeigen. Durch die Anwendung dieses Frameworks auf GPT-4o Image Gen erstellen wir einen Datensatz mit über 31.000 Prompts, die aus solchen Posts kuratiert wurden. Unsere Analyse zeigt, dass ECHO (1) kreative und komplexe Aufgaben entdeckt, die in bestehenden Benchmarks fehlen, wie z. B. das Neugestalten von Produktetiketten in verschiedenen Sprachen oder das Generieren von Quittungen mit vorgegebenen Gesamtbeträgen, (2) state-of-the-art Modelle deutlicher von Alternativen unterscheidet und (3) Community-Feedback aufzeigt, das wir zur Gestaltung von Metriken für die Modellqualität nutzen (z. B. die Messung beobachteter Verschiebungen in Farbe, Identität und Struktur). Unsere Website ist unter https://echo-bench.github.io verfügbar.
English
Recent advances in image generation, often driven by proprietary systems like GPT-4o Image Gen, regularly introduce new capabilities that reshape how users interact with these models. Existing benchmarks often lag behind and fail to capture these emerging use cases, leaving a gap between community perceptions of progress and formal evaluation. To address this, we present ECHO, a framework for constructing benchmarks directly from real-world evidence of model use: social media posts that showcase novel prompts and qualitative user judgments. Applying this framework to GPT-4o Image Gen, we construct a dataset of over 31,000 prompts curated from such posts. Our analysis shows that ECHO (1) discovers creative and complex tasks absent from existing benchmarks, such as re-rendering product labels across languages or generating receipts with specified totals, (2) more clearly distinguishes state-of-the-art models from alternatives, and (3) surfaces community feedback that we use to inform the design of metrics for model quality (e.g., measuring observed shifts in color, identity, and structure). Our website is at https://echo-bench.github.io.
PDF52October 21, 2025