RefVNLI: Hacia una evaluación escalable de la generación de imágenes a partir de texto guiada por temas
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation
April 24, 2025
Autores: Aviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor
cs.AI
Resumen
La generación de imágenes a partir de texto impulsada por sujetos (T2I) tiene como objetivo producir imágenes que se alineen con una descripción textual dada, mientras preservan la identidad visual de una imagen de referencia. A pesar de su amplia aplicabilidad en diversas áreas —desde la personalización mejorada en la generación de imágenes hasta la representación consistente de personajes en la renderización de videos—, el progreso en este campo se ve limitado por la falta de una evaluación automática confiable. Los métodos existentes evalúan solo un aspecto de la tarea (es decir, la alineación textual o la preservación del sujeto), no se alinean con los juicios humanos o dependen de evaluaciones costosas basadas en API. Para abordar esto, presentamos RefVNLI, una métrica rentable que evalúa tanto la alineación textual como la preservación del sujeto en una sola predicción. Entrenada en un conjunto de datos a gran escala derivado de benchmarks de razonamiento de video y perturbaciones de imágenes, RefVNLI supera o iguala a los métodos de referencia existentes en múltiples benchmarks y categorías de sujetos (por ejemplo, Animal, Objeto), logrando mejoras de hasta 6.4 puntos en alineación textual y 8.5 puntos en consistencia del sujeto. También destaca en conceptos menos conocidos, alineándose con las preferencias humanas con una precisión superior al 87%.
English
Subject-driven text-to-image (T2I) generation aims to produce images that
align with a given textual description, while preserving the visual identity
from a referenced subject image. Despite its broad downstream applicability --
ranging from enhanced personalization in image generation to consistent
character representation in video rendering -- progress in this field is
limited by the lack of reliable automatic evaluation. Existing methods either
assess only one aspect of the task (i.e., textual alignment or subject
preservation), misalign with human judgments, or rely on costly API-based
evaluation. To address this, we introduce RefVNLI, a cost-effective metric that
evaluates both textual alignment and subject preservation in a single
prediction. Trained on a large-scale dataset derived from video-reasoning
benchmarks and image perturbations, RefVNLI outperforms or matches existing
baselines across multiple benchmarks and subject categories (e.g.,
Animal, Object), achieving up to 6.4-point gains in textual
alignment and 8.5-point gains in subject consistency. It also excels with
lesser-known concepts, aligning with human preferences at over 87\% accuracy.Summary
AI-Generated Summary