RefVNLI: К масштабируемой оценке генерации изображений на основе текста с учетом предметной области
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation
April 24, 2025
Авторы: Aviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor
cs.AI
Аннотация
Генерация изображений на основе текста с учетом объекта (T2I) направлена на создание изображений, соответствующих заданному текстовому описанию, при этом сохраняя визуальную идентичность из эталонного изображения объекта. Несмотря на широкую применимость в различных областях — от улучшения персонализации в генерации изображений до согласованного представления персонажей в рендеринге видео — прогресс в этой области ограничен отсутствием надежной автоматической оценки. Существующие методы либо оценивают только один аспект задачи (например, соответствие тексту или сохранение объекта), не согласуются с человеческими суждениями, либо полагаются на дорогостоящую оценку через API. Для решения этой проблемы мы представляем RefVNLI — экономичный метрический инструмент, который оценивает как соответствие тексту, так и сохранение объекта в рамках одного предсказания. Обученный на крупномасштабном наборе данных, полученном из бенчмарков для анализа видео и искажений изображений, RefVNLI превосходит или соответствует существующим базовым методам на множестве бенчмарков и категорий объектов (например, животные, предметы), достигая улучшений до 6,4 баллов в соответствию тексту и 8,5 баллов в сохранении объекта. Он также демонстрирует высокие результаты с менее известными концепциями, согласуясь с человеческими предпочтениями с точностью более 87%.
English
Subject-driven text-to-image (T2I) generation aims to produce images that
align with a given textual description, while preserving the visual identity
from a referenced subject image. Despite its broad downstream applicability --
ranging from enhanced personalization in image generation to consistent
character representation in video rendering -- progress in this field is
limited by the lack of reliable automatic evaluation. Existing methods either
assess only one aspect of the task (i.e., textual alignment or subject
preservation), misalign with human judgments, or rely on costly API-based
evaluation. To address this, we introduce RefVNLI, a cost-effective metric that
evaluates both textual alignment and subject preservation in a single
prediction. Trained on a large-scale dataset derived from video-reasoning
benchmarks and image perturbations, RefVNLI outperforms or matches existing
baselines across multiple benchmarks and subject categories (e.g.,
Animal, Object), achieving up to 6.4-point gains in textual
alignment and 8.5-point gains in subject consistency. It also excels with
lesser-known concepts, aligning with human preferences at over 87\% accuracy.Summary
AI-Generated Summary