ChatPaper.aiChatPaper

Modelos de Imagem em Constante Melhoria Precisam de Benchmarks em Constante Melhoria

Constantly Improving Image Models Need Constantly Improving Benchmarks

October 16, 2025
Autores: Jiaxin Ge, Grace Luo, Heekyung Lee, Nishant Malpani, Long Lian, XuDong Wang, Aleksander Holynski, Trevor Darrell, Sewon Min, David M. Chan
cs.AI

Resumo

Os recentes avanços na geração de imagens, frequentemente impulsionados por sistemas proprietários como o GPT-4o Image Gen, regularmente introduzem novas capacidades que remodelam a forma como os usuários interagem com esses modelos. Os benchmarks existentes frequentemente ficam para trás e não conseguem capturar esses casos de uso emergentes, deixando uma lacuna entre as percepções da comunidade sobre o progresso e a avaliação formal. Para abordar isso, apresentamos o ECHO, um framework para a construção de benchmarks diretamente a partir de evidências do mundo real do uso de modelos: postagens em mídias sociais que mostram prompts inovadores e julgamentos qualitativos dos usuários. Aplicando esse framework ao GPT-4o Image Gen, construímos um conjunto de dados com mais de 31.000 prompts curados a partir dessas postagens. Nossa análise mostra que o ECHO (1) descobre tarefas criativas e complexas ausentes nos benchmarks existentes, como a re-renderização de rótulos de produtos em diferentes idiomas ou a geração de recibos com totais especificados, (2) distingue mais claramente os modelos de última geração das alternativas, e (3) traz à tona feedback da comunidade que usamos para informar o design de métricas para a qualidade do modelo (por exemplo, medindo mudanças observadas em cor, identidade e estrutura). Nosso site está em https://echo-bench.github.io.
English
Recent advances in image generation, often driven by proprietary systems like GPT-4o Image Gen, regularly introduce new capabilities that reshape how users interact with these models. Existing benchmarks often lag behind and fail to capture these emerging use cases, leaving a gap between community perceptions of progress and formal evaluation. To address this, we present ECHO, a framework for constructing benchmarks directly from real-world evidence of model use: social media posts that showcase novel prompts and qualitative user judgments. Applying this framework to GPT-4o Image Gen, we construct a dataset of over 31,000 prompts curated from such posts. Our analysis shows that ECHO (1) discovers creative and complex tasks absent from existing benchmarks, such as re-rendering product labels across languages or generating receipts with specified totals, (2) more clearly distinguishes state-of-the-art models from alternatives, and (3) surfaces community feedback that we use to inform the design of metrics for model quality (e.g., measuring observed shifts in color, identity, and structure). Our website is at https://echo-bench.github.io.
PDF52October 21, 2025