StableI2I: 画像間変換における意図しない変化の検出
StableI2I: Spotting Unintended Changes in Image-to-Image Transition
May 6, 2026
著者: Jiayang Li, Shuo Cao, Xiaohui Li, Zhizhen Zhang, Kaiwen Zhu, Yule Duan, Yu Qiao, Jian Zhang, Yihao Liu
cs.AI
要旨
現実世界の画像間変換(I2I)タスクにおいて、既存の評価手法は主に指示への追従性や生成画像の知覚的品質・美的品質に焦点を当てています。しかし、出力画像が入力画像の意味的対応性や空間構造を保持しているかどうかを評価する枠組みは十分に確立されていません。この課題を解決するため、我々はStableI2Iを提案します。これは参照画像を必要とせず、画像編集や画像復元を含む多様なI2Iタスクにおいて、コンテンツの忠実性と前後一貫性を明示的に測定する統合的で動的な評価フレームワークです。さらに、この忠実性と一貫性評価タスクにおけるMLLMの精度を体系的に評価するためのベンチマークStableI2I-Benchを構築しました。大規模な実験結果により、StableI2Iがコンテンツ忠実性と一貫性の正確で細粒度な解釈可能な評価を提供し、人間の主観的評価と強い相関を持つことが実証されました。本フレームワークは、実世界のI2Iシステムにおけるコンテンツ一貫性の診断とモデル性能のベンチマーク化に向けた実用的かつ信頼性の高い評価ツールとして機能します。
English
In most real-world image-to-image (I2I) scenarios, existing evaluations primarily focus on instruction following and the perceptual quality or aesthetics of the generated images. However, they largely fail to assess whether the output image preserves the semantic correspondence and spatial structure of the input image. To address this limitation, we propose StableI2I, a unified and dynamic evaluation framework that explicitly measures content fidelity and pre--post consistency across a wide range of I2I tasks without requiring reference images, including image editing and image restoration. In addition, we construct StableI2I-Bench, a benchmark designed to systematically evaluate the accuracy of MLLMs on such fidelity and consistency assessment tasks. Extensive experimental results demonstrate that StableI2I provides accurate, fine-grained, and interpretable evaluations of content fidelity and consistency, with strong correlations to human subjective judgments. Our framework serves as a practical and reliable evaluation tool for diagnosing content consistency and benchmarking model performance in real-world I2I systems.