StableI2I: Het Opsporen van Onbedoelde Veranderingen in Beeld-naar-Beeld-Overgangen
StableI2I: Spotting Unintended Changes in Image-to-Image Transition
May 6, 2026
Auteurs: Jiayang Li, Shuo Cao, Xiaohui Li, Zhizhen Zhang, Kaiwen Zhu, Yule Duan, Yu Qiao, Jian Zhang, Yihao Liu
cs.AI
Samenvatting
In de meeste real-world beeld-naar-beeld (I2I) scenario's richten bestaande evaluatiemethoden zich voornamelijk op het opvolgen van instructies en de perceptuele kwaliteit of esthetiek van de gegenereerde beelden. Echter, ze slagen er grotendeels niet in om te beoordelen of de uitvoerafbeelding de semantische correspondentie en ruimtelijke structuur van de invoerafbeelding behoudt. Om deze beperking aan te pakken, stellen wij StableI2I voor, een uniform en dynamisch evaluatieraamwerk dat expliciet de inhoudstrouw en pre-post consistentie meet over een breed scala aan I2I-taken, zonder referentiebeelden nodig te hebben, inclusief beeldbewerking en beeldrestauratie. Daarnaast construeren wij StableI2I-Bench, een benchmark die is ontworpen om de nauwkeurigheid van MLLM's voor dergelijke taken voor het beoordelen van trouw en consistentie systematisch te evalueren. Uitgebreide experimentele resultaten tonen aan dat StableI2I accurate, fijnmazige en interpreteerbare evaluaties van inhoudstrouw en consistentie biedt, met sterke correlaties met subjectieve menselijke beoordelingen. Ons raamwerk dient als een praktisch en betrouwbaar evaluatie-instrument voor het diagnosticeren van inhoudsconsistentie en het benchmarken van modelprestaties in real-world I2I-systemen.
English
In most real-world image-to-image (I2I) scenarios, existing evaluations primarily focus on instruction following and the perceptual quality or aesthetics of the generated images. However, they largely fail to assess whether the output image preserves the semantic correspondence and spatial structure of the input image. To address this limitation, we propose StableI2I, a unified and dynamic evaluation framework that explicitly measures content fidelity and pre--post consistency across a wide range of I2I tasks without requiring reference images, including image editing and image restoration. In addition, we construct StableI2I-Bench, a benchmark designed to systematically evaluate the accuracy of MLLMs on such fidelity and consistency assessment tasks. Extensive experimental results demonstrate that StableI2I provides accurate, fine-grained, and interpretable evaluations of content fidelity and consistency, with strong correlations to human subjective judgments. Our framework serves as a practical and reliable evaluation tool for diagnosing content consistency and benchmarking model performance in real-world I2I systems.