StableI2I: Выявление непреднамеренных изменений при переходе от изображения к изображению

Аннотация

В большинстве реальных сценариев преобразования «изображение-в-изображение» (Image-to-Image, I2I) существующие методы оценки в основном сосредоточены на следовании инструкциям, а также на перцептивном качестве или эстетике генерируемых изображений. Однако они в значительной степени не позволяют оценить, сохраняет ли выходное изображение семантическое соответствие и пространственную структуру входного изображения. Чтобы устранить этот недостаток, мы предлагаем StableI2I — унифицированную и динамическую систему оценки, которая явно измеряет достоверность содержания и согласованность «до-после» для широкого спектра задач I2I, включая редактирование и восстановление изображений, без необходимости использования эталонных изображений. Кроме того, мы создали StableI2I-Bench — эталонный набор данных, предназначенный для систематической оценки точности MLLM (мультимодальных больших языковых моделей) в задачах оценки достоверности и согласованности. Результаты многочисленных экспериментов показывают, что StableI2I обеспечивает точную, детализированную и интерпретируемую оценку достоверности содержания и согласованности, демонстрируя сильную корреляцию с субъективными оценками человека. Наша система служит практичным и надежным инструментом для диагностики согласованности содержания и сравнительного анализа производительности моделей в реальных системах I2I.

English

In most real-world image-to-image (I2I) scenarios, existing evaluations primarily focus on instruction following and the perceptual quality or aesthetics of the generated images. However, they largely fail to assess whether the output image preserves the semantic correspondence and spatial structure of the input image. To address this limitation, we propose StableI2I, a unified and dynamic evaluation framework that explicitly measures content fidelity and pre--post consistency across a wide range of I2I tasks without requiring reference images, including image editing and image restoration. In addition, we construct StableI2I-Bench, a benchmark designed to systematically evaluate the accuracy of MLLMs on such fidelity and consistency assessment tasks. Extensive experimental results demonstrate that StableI2I provides accurate, fine-grained, and interpretable evaluations of content fidelity and consistency, with strong correlations to human subjective judgments. Our framework serves as a practical and reliable evaluation tool for diagnosing content consistency and benchmarking model performance in real-world I2I systems.

StableI2I: Выявление непреднамеренных изменений при переходе от изображения к изображению

StableI2I: Spotting Unintended Changes in Image-to-Image Transition

Аннотация

Support