OneIG-Bench: Всесторонняя и детализированная оценка генерации изображений

Аннотация

Модели генерации изображений по тексту (Text-to-Image, T2I) привлекают значительное внимание благодаря созданию высококачественных изображений, соответствующих текстовым запросам. Однако быстрый прогресс в развитии T2I-моделей выявил ограничения ранних эталонных тестов, которые не включали всестороннюю оценку, например, анализ способности к рассуждению, точности отображения текста и стилизации. Примечательно, что современные модели с их мощными возможностями моделирования знаний демонстрируют впечатляющие результаты в задачах генерации изображений, требующих развитых способностей к рассуждению, однако существующие системы оценки не уделяют должного внимания этому направлению. Для систематического устранения этих пробелов мы представляем OneIG-Bench — тщательно разработанный комплексный эталонный фреймворк для детальной оценки T2I-моделей по множеству параметров, включая соответствие изображения текстовому запросу, точность отображения текста, контент, созданный на основе рассуждений, стилизацию и разнообразие. Структурируя процесс оценки, этот эталонный тест позволяет проводить углубленный анализ производительности моделей, помогая исследователям и практикам выявлять сильные стороны и узкие места в полном цикле генерации изображений. В частности, OneIG-Bench обеспечивает гибкую оценку, позволяя пользователям сосредоточиться на конкретном подмножестве параметров. Вместо генерации изображений для всего набора запросов пользователи могут создавать изображения только для запросов, связанных с выбранным параметром, и проводить соответствующую оценку. Наш код и набор данных теперь доступны публично для обеспечения воспроизводимости исследований и сравнения моделей в рамках сообщества, занимающегося исследованиями T2I.

English

Text-to-image (T2I) models have garnered significant attention for generating high-quality images aligned with text prompts. However, rapid T2I model advancements reveal limitations in early benchmarks, lacking comprehensive evaluations, for example, the evaluation on reasoning, text rendering and style. Notably, recent state-of-the-art models, with their rich knowledge modeling capabilities, show promising results on the image generation problems requiring strong reasoning ability, yet existing evaluation systems have not adequately addressed this frontier. To systematically address these gaps, we introduce OneIG-Bench, a meticulously designed comprehensive benchmark framework for fine-grained evaluation of T2I models across multiple dimensions, including prompt-image alignment, text rendering precision, reasoning-generated content, stylization, and diversity. By structuring the evaluation, this benchmark enables in-depth analysis of model performance, helping researchers and practitioners pinpoint strengths and bottlenecks in the full pipeline of image generation. Specifically, OneIG-Bench enables flexible evaluation by allowing users to focus on a particular evaluation subset. Instead of generating images for the entire set of prompts, users can generate images only for the prompts associated with the selected dimension and complete the corresponding evaluation accordingly. Our codebase and dataset are now publicly available to facilitate reproducible evaluation studies and cross-model comparisons within the T2I research community.

OneIG-Bench: Всесторонняя и детализированная оценка генерации изображений

OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

Аннотация

Support