ChatPaper.aiChatPaper

RefVNLI: Verso una valutazione scalabile della generazione di immagini da testo guidata dal soggetto

RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation

April 24, 2025
Autori: Aviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor
cs.AI

Abstract

La generazione di immagini da testo guidata da soggetto (T2I) mira a produrre immagini che si allineano a una descrizione testuale data, preservando al contempo l'identità visiva di un'immagine di riferimento. Nonostante la sua ampia applicabilità in contesti downstream, che spazia dalla personalizzazione avanzata nella generazione di immagini alla rappresentazione coerente di personaggi nel rendering video, i progressi in questo campo sono limitati dalla mancanza di una valutazione automatica affidabile. I metodi esistenti valutano solo un aspetto del compito (ad esempio, l'allineamento testuale o la preservazione del soggetto), non si allineano ai giudizi umani o si basano su valutazioni costose basate su API. Per affrontare questo problema, introduciamo RefVNLI, una metrica economica che valuta sia l'allineamento testuale che la preservazione del soggetto in una singola previsione. Addestrato su un ampio dataset derivato da benchmark di ragionamento video e perturbazioni di immagini, RefVNLI supera o eguaglia le baseline esistenti su più benchmark e categorie di soggetti (ad esempio, Animali, Oggetti), raggiungendo miglioramenti fino a 6,4 punti nell'allineamento testuale e 8,5 punti nella coerenza del soggetto. Eccelle anche con concetti meno noti, allineandosi alle preferenze umane con un'accuratezza superiore all'87%.
English
Subject-driven text-to-image (T2I) generation aims to produce images that align with a given textual description, while preserving the visual identity from a referenced subject image. Despite its broad downstream applicability -- ranging from enhanced personalization in image generation to consistent character representation in video rendering -- progress in this field is limited by the lack of reliable automatic evaluation. Existing methods either assess only one aspect of the task (i.e., textual alignment or subject preservation), misalign with human judgments, or rely on costly API-based evaluation. To address this, we introduce RefVNLI, a cost-effective metric that evaluates both textual alignment and subject preservation in a single prediction. Trained on a large-scale dataset derived from video-reasoning benchmarks and image perturbations, RefVNLI outperforms or matches existing baselines across multiple benchmarks and subject categories (e.g., Animal, Object), achieving up to 6.4-point gains in textual alignment and 8.5-point gains in subject consistency. It also excels with lesser-known concepts, aligning with human preferences at over 87\% accuracy.

Summary

AI-Generated Summary

PDF542April 25, 2025