RefVNLI: Rumo à Avaliação Escalável de Geração de Texto para Imagem Orientada por Assunto
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation
April 24, 2025
Autores: Aviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor
cs.AI
Resumo
A geração de imagens a partir de texto (T2I) orientada por sujeito tem como objetivo produzir imagens que se alinhem a uma descrição textual fornecida, ao mesmo tempo em que preservam a identidade visual de uma imagem de referência. Apesar de sua ampla aplicabilidade em tarefas subsequentes — que vão desde a personalização aprimorada na geração de imagens até a representação consistente de personagens na renderização de vídeos —, o progresso nessa área é limitado pela falta de avaliação automática confiável. Os métodos existentes avaliam apenas um aspecto da tarefa (ou seja, o alinhamento textual ou a preservação do sujeito), não se alinham com os julgamentos humanos ou dependem de avaliações baseadas em APIs custosas. Para resolver isso, introduzimos o RefVNLI, uma métrica econômica que avalia tanto o alinhamento textual quanto a preservação do sujeito em uma única previsão. Treinado em um conjunto de dados em grande escala derivado de benchmarks de raciocínio em vídeo e perturbações de imagem, o RefVNLI supera ou iguala as linhas de base existentes em múltiplos benchmarks e categorias de sujeitos (por exemplo, Animal, Objeto), alcançando ganhos de até 6,4 pontos no alinhamento textual e 8,5 pontos na consistência do sujeito. Ele também se destaca com conceitos menos conhecidos, alinhando-se às preferências humanas com mais de 87% de precisão.
English
Subject-driven text-to-image (T2I) generation aims to produce images that
align with a given textual description, while preserving the visual identity
from a referenced subject image. Despite its broad downstream applicability --
ranging from enhanced personalization in image generation to consistent
character representation in video rendering -- progress in this field is
limited by the lack of reliable automatic evaluation. Existing methods either
assess only one aspect of the task (i.e., textual alignment or subject
preservation), misalign with human judgments, or rely on costly API-based
evaluation. To address this, we introduce RefVNLI, a cost-effective metric that
evaluates both textual alignment and subject preservation in a single
prediction. Trained on a large-scale dataset derived from video-reasoning
benchmarks and image perturbations, RefVNLI outperforms or matches existing
baselines across multiple benchmarks and subject categories (e.g.,
Animal, Object), achieving up to 6.4-point gains in textual
alignment and 8.5-point gains in subject consistency. It also excels with
lesser-known concepts, aligning with human preferences at over 87\% accuracy.Summary
AI-Generated Summary