StableI2I: Detección de Cambios No Deseados en la Transición de Imagen a Imagen

Resumen

En la mayoría de los escenarios reales de imagen a imagen (I2I), las evaluaciones existentes se centran principalmente en el seguimiento de instrucciones y en la calidad perceptual o estética de las imágenes generadas. Sin embargo, en gran medida no logran evaluar si la imagen de salida preserva la correspondencia semántica y la estructura espacial de la imagen de entrada. Para abordar esta limitación, proponemos StableI2I, un marco de evaluación unificado y dinámico que mide explícitamente la fidelidad del contenido y la consistencia pre-post en una amplia gama de tareas I2I sin requerir imágenes de referencia, incluyendo la edición y restauración de imágenes. Además, construimos StableI2I-Bench, un benchmark diseñado para evaluar sistemáticamente la precisión de los MLLMs en dichas tareas de evaluación de fidelidad y consistencia. Resultados experimentales exhaustivos demuestran que StableI2I proporciona evaluaciones precisas, detalladas e interpretables de la fidelidad del contenido y la consistencia, con una fuerte correlación con los juicios subjetivos humanos. Nuestro marco sirve como una herramienta de evaluación práctica y confiable para diagnosticar la consistencia del contenido y comparar el rendimiento de los modelos en sistemas I2I del mundo real.

English

In most real-world image-to-image (I2I) scenarios, existing evaluations primarily focus on instruction following and the perceptual quality or aesthetics of the generated images. However, they largely fail to assess whether the output image preserves the semantic correspondence and spatial structure of the input image. To address this limitation, we propose StableI2I, a unified and dynamic evaluation framework that explicitly measures content fidelity and pre--post consistency across a wide range of I2I tasks without requiring reference images, including image editing and image restoration. In addition, we construct StableI2I-Bench, a benchmark designed to systematically evaluate the accuracy of MLLMs on such fidelity and consistency assessment tasks. Extensive experimental results demonstrate that StableI2I provides accurate, fine-grained, and interpretable evaluations of content fidelity and consistency, with strong correlations to human subjective judgments. Our framework serves as a practical and reliable evaluation tool for diagnosing content consistency and benchmarking model performance in real-world I2I systems.

StableI2I: Detección de Cambios No Deseados en la Transición de Imagen a Imagen

StableI2I: Spotting Unintended Changes in Image-to-Image Transition

Resumen

Support