Постоянное совершенствование моделей обработки изображений требует постоянного улучшения тестовых наборов данных.
Constantly Improving Image Models Need Constantly Improving Benchmarks
October 16, 2025
Авторы: Jiaxin Ge, Grace Luo, Heekyung Lee, Nishant Malpani, Long Lian, XuDong Wang, Aleksander Holynski, Trevor Darrell, Sewon Min, David M. Chan
cs.AI
Аннотация
Последние достижения в области генерации изображений, часто обусловленные проприетарными системами, такими как GPT-4o Image Gen, регулярно вводят новые возможности, которые меняют способы взаимодействия пользователей с этими моделями. Существующие бенчмарки часто отстают и не учитывают эти новые сценарии использования, создавая разрыв между восприятием прогресса сообществом и формальной оценкой. Чтобы решить эту проблему, мы представляем ECHO — фреймворк для создания бенчмарков непосредственно на основе реальных примеров использования моделей: постов в социальных сетях, демонстрирующих новые запросы и качественные оценки пользователей. Применяя этот фреймворк к GPT-4o Image Gen, мы создали набор данных из более чем 31 000 запросов, отобранных из таких постов. Наш анализ показывает, что ECHO (1) выявляет творческие и сложные задачи, отсутствующие в существующих бенчмарках, такие как перерисовка этикеток продуктов на разных языках или генерация чеков с указанными суммами, (2) более четко отличает передовые модели от альтернатив и (3) выявляет отзывы сообщества, которые мы используем для разработки метрик качества моделей (например, измерение наблюдаемых изменений в цвете, идентичности и структуре). Наш сайт доступен по адресу https://echo-bench.github.io.
English
Recent advances in image generation, often driven by proprietary systems like
GPT-4o Image Gen, regularly introduce new capabilities that reshape how users
interact with these models. Existing benchmarks often lag behind and fail to
capture these emerging use cases, leaving a gap between community perceptions
of progress and formal evaluation. To address this, we present ECHO, a
framework for constructing benchmarks directly from real-world evidence of
model use: social media posts that showcase novel prompts and qualitative user
judgments. Applying this framework to GPT-4o Image Gen, we construct a dataset
of over 31,000 prompts curated from such posts. Our analysis shows that ECHO
(1) discovers creative and complex tasks absent from existing benchmarks, such
as re-rendering product labels across languages or generating receipts with
specified totals, (2) more clearly distinguishes state-of-the-art models from
alternatives, and (3) surfaces community feedback that we use to inform the
design of metrics for model quality (e.g., measuring observed shifts in color,
identity, and structure). Our website is at https://echo-bench.github.io.