StableI2I : Détection des modifications involontaires lors de la transition image-à-image

Résumé

Dans la plupart des scénarios réels d'image-à-image (I2I), les évaluations existantes se concentrent principalement sur le suivi des instructions et la qualité perceptuelle ou l'esthétique des images générées. Cependant, elles échouent largement à évaluer si l'image de sortie préserve la correspondance sémantique et la structure spatiale de l'image d'entrée. Pour remédier à cette limite, nous proposons StableI2I, un cadre d'évaluation unifié et dynamique qui mesure explicitement la fidélité du contenu et la cohérence avant-après sur un large éventail de tâches I2I sans nécessiter d'images de référence, incluant l'édition d'images et la restauration d'images. De plus, nous construisons StableI2I-Bench, un benchmark conçu pour évaluer systématiquement la précision des MLLM sur ces tâches d'évaluation de la fidélité et de la cohérence. Des résultats expérimentaux approfondis démontrent que StableI2I fournit des évaluations précises, granulaires et interprétables de la fidélité du contenu et de la cohérence, avec de fortes corrélations avec les jugements subjectifs humains. Notre cadre sert d'outil d'évaluation pratique et fiable pour diagnostiquer la cohérence du contenu et comparer les performances des modèles dans les systèmes I2I réels.

English

In most real-world image-to-image (I2I) scenarios, existing evaluations primarily focus on instruction following and the perceptual quality or aesthetics of the generated images. However, they largely fail to assess whether the output image preserves the semantic correspondence and spatial structure of the input image. To address this limitation, we propose StableI2I, a unified and dynamic evaluation framework that explicitly measures content fidelity and pre--post consistency across a wide range of I2I tasks without requiring reference images, including image editing and image restoration. In addition, we construct StableI2I-Bench, a benchmark designed to systematically evaluate the accuracy of MLLMs on such fidelity and consistency assessment tasks. Extensive experimental results demonstrate that StableI2I provides accurate, fine-grained, and interpretable evaluations of content fidelity and consistency, with strong correlations to human subjective judgments. Our framework serves as a practical and reliable evaluation tool for diagnosing content consistency and benchmarking model performance in real-world I2I systems.

StableI2I : Détection des modifications involontaires lors de la transition image-à-image

StableI2I: Spotting Unintended Changes in Image-to-Image Transition

Résumé

Support