ChatPaper.aiChatPaper

Los modelos de imágenes en constante mejora requieren puntos de referencia en constante mejora.

Constantly Improving Image Models Need Constantly Improving Benchmarks

October 16, 2025
Autores: Jiaxin Ge, Grace Luo, Heekyung Lee, Nishant Malpani, Long Lian, XuDong Wang, Aleksander Holynski, Trevor Darrell, Sewon Min, David M. Chan
cs.AI

Resumen

Los avances recientes en la generación de imágenes, impulsados frecuentemente por sistemas propietarios como GPT-4o Image Gen, introducen regularmente nuevas capacidades que transforman la forma en que los usuarios interactúan con estos modelos. Los puntos de referencia existentes a menudo se quedan rezagados y no logran capturar estos casos de uso emergentes, dejando una brecha entre las percepciones comunitarias del progreso y la evaluación formal. Para abordar esto, presentamos ECHO, un marco para construir puntos de referencia directamente a partir de evidencia del mundo real sobre el uso de los modelos: publicaciones en redes sociales que muestran indicaciones novedosas y juicios cualitativos de los usuarios. Aplicando este marco a GPT-4o Image Gen, construimos un conjunto de datos de más de 31,000 indicaciones curadas a partir de dichas publicaciones. Nuestro análisis muestra que ECHO (1) descubre tareas creativas y complejas ausentes en los puntos de referencia existentes, como la reinterpretación de etiquetas de productos en diferentes idiomas o la generación de recibos con totales específicos, (2) distingue más claramente los modelos de vanguardia de las alternativas, y (3) recopila comentarios de la comunidad que utilizamos para informar el diseño de métricas de calidad del modelo (por ejemplo, midiendo cambios observados en el color, la identidad y la estructura). Nuestro sitio web se encuentra en https://echo-bench.github.io.
English
Recent advances in image generation, often driven by proprietary systems like GPT-4o Image Gen, regularly introduce new capabilities that reshape how users interact with these models. Existing benchmarks often lag behind and fail to capture these emerging use cases, leaving a gap between community perceptions of progress and formal evaluation. To address this, we present ECHO, a framework for constructing benchmarks directly from real-world evidence of model use: social media posts that showcase novel prompts and qualitative user judgments. Applying this framework to GPT-4o Image Gen, we construct a dataset of over 31,000 prompts curated from such posts. Our analysis shows that ECHO (1) discovers creative and complex tasks absent from existing benchmarks, such as re-rendering product labels across languages or generating receipts with specified totals, (2) more clearly distinguishes state-of-the-art models from alternatives, and (3) surfaces community feedback that we use to inform the design of metrics for model quality (e.g., measuring observed shifts in color, identity, and structure). Our website is at https://echo-bench.github.io.
PDF52October 21, 2025