StableI2I: Erkennung unbeabsichtigter Veränderungen im Bild-zu-Bild-Übergang

Zusammenfassung

In den meisten realen Bild-zu-Bild (I2I)-Szenarien konzentrieren sich bestehende Bewertungen primär auf die Befolgung von Anweisungen sowie auf die wahrgenommene Qualität oder Ästhetik der generierten Bilder. Dabei wird jedoch weitgehend vernachlässigt zu prüfen, ob das Ausgabebild die semantische Korrespondenz und räumliche Struktur des Eingabebildes bewahrt. Um diese Lücke zu schließen, schlagen wir StableI2I vor – einen einheitlichen und dynamischen Bewertungsrahmen, der explizit die Inhaltsgetreue und Vorher-Nachher-Konsistenz über ein breites Spektrum von I2I-Aufgaben hinweg misst, ohne Referenzbilder zu benötigen, einschließlich Bildbearbeitung und Bildrestauration. Zusätzlich entwickeln wir StableI2I-Bench, einen Benchmark, der darauf ausgelegt ist, die Genauigkeit von MLLMs bei solchen Treue- und Konsistenzbewertungsaufgaben systematisch zu evaluieren. Umfangreiche experimentelle Ergebnisse belegen, dass StableI2I präzise, feingranulare und interpretierbare Bewertungen der Inhaltsgetreue und Konsistenz liefert, die stark mit subjektiven menschlichen Urteilen korrelieren. Unser Framework dient als praktisches und zuverlässiges Bewertungswerkzeug zur Diagnose von Inhaltskonsistenz und zum Benchmarking der Modellleistung in realen I2I-Systemen.

English

In most real-world image-to-image (I2I) scenarios, existing evaluations primarily focus on instruction following and the perceptual quality or aesthetics of the generated images. However, they largely fail to assess whether the output image preserves the semantic correspondence and spatial structure of the input image. To address this limitation, we propose StableI2I, a unified and dynamic evaluation framework that explicitly measures content fidelity and pre--post consistency across a wide range of I2I tasks without requiring reference images, including image editing and image restoration. In addition, we construct StableI2I-Bench, a benchmark designed to systematically evaluate the accuracy of MLLMs on such fidelity and consistency assessment tasks. Extensive experimental results demonstrate that StableI2I provides accurate, fine-grained, and interpretable evaluations of content fidelity and consistency, with strong correlations to human subjective judgments. Our framework serves as a practical and reliable evaluation tool for diagnosing content consistency and benchmarking model performance in real-world I2I systems.

StableI2I: Erkennung unbeabsichtigter Veränderungen im Bild-zu-Bild-Übergang

StableI2I: Spotting Unintended Changes in Image-to-Image Transition

Zusammenfassung

Support