RefVNLI:主題駆動型テキストから画像生成のスケーラブルな評価に向けて
RefVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation
April 24, 2025
著者: Aviv Slobodkin, Hagai Taitelbaum, Yonatan Bitton, Brian Gordon, Michal Sokolik, Nitzan Bitton Guetta, Almog Gueta, Royi Rassin, Itay Laish, Dani Lischinski, Idan Szpektor
cs.AI
要旨
主題駆動型テキストから画像(T2I)生成は、与えられたテキスト記述に沿った画像を生成しつつ、参照された主題画像の視覚的同一性を保持することを目的としています。この技術は、画像生成における高度なパーソナライゼーションからビデオレンダリングにおける一貫したキャラクター表現まで、幅広い下流応用が可能であるにもかかわらず、信頼性のある自動評価手法の不足により進展が制限されています。既存の手法は、タスクの一側面(テキスト整合性または主題保持)のみを評価するか、人間の判断と乖離しているか、あるいは高コストなAPIベースの評価に依存しています。この問題を解決するため、我々はRefVNLIを提案します。これは、テキスト整合性と主題保持の両方を単一の予測で評価するコスト効率の高い指標です。ビデオ推論ベンチマークと画像摂動から派生した大規模データセットで訓練されたRefVNLIは、複数のベンチマークと主題カテゴリ(例:動物、物体)において既存のベースラインを上回るか同等の性能を発揮し、テキスト整合性で最大6.4ポイント、主題一貫性で最大8.5ポイントの向上を達成しました。また、あまり知られていない概念においても優れた性能を示し、人間の選好と87%以上の精度で一致しています。
English
Subject-driven text-to-image (T2I) generation aims to produce images that
align with a given textual description, while preserving the visual identity
from a referenced subject image. Despite its broad downstream applicability --
ranging from enhanced personalization in image generation to consistent
character representation in video rendering -- progress in this field is
limited by the lack of reliable automatic evaluation. Existing methods either
assess only one aspect of the task (i.e., textual alignment or subject
preservation), misalign with human judgments, or rely on costly API-based
evaluation. To address this, we introduce RefVNLI, a cost-effective metric that
evaluates both textual alignment and subject preservation in a single
prediction. Trained on a large-scale dataset derived from video-reasoning
benchmarks and image perturbations, RefVNLI outperforms or matches existing
baselines across multiple benchmarks and subject categories (e.g.,
Animal, Object), achieving up to 6.4-point gains in textual
alignment and 8.5-point gains in subject consistency. It also excels with
lesser-known concepts, aligning with human preferences at over 87\% accuracy.Summary
AI-Generated Summary