Парный граф искажений паноптикума

Аннотация

В данной работе мы предлагаем новый подход к сравнительной оценке изображений, представляя пару изображений как структурированную композицию их регионов. В отличие от существующих методов, которые фокусируются на анализе изображения в целом, неявно опираясь на понимание на уровне регионов, мы расширяем внутриизображенное понятие сцены-графа до межизображенного и предлагаем новую задачу построения Графа Искажений (Distortion Graph, DG). DG рассматривает парные изображения как структурированную топологию, основанную на регионах, и представляет плотную информацию об ухудшениях (таких как тип искажения, степень выраженности, сравнение и оценка качества) в компактной, интерпретируемой графовой структуре. Для реализации задачи обучения графу искажений мы представляем (i) набор данных на уровне регионов PandaSet, (ii) набор тестов PandaBench с различной сложностью на уровне регионов и (iii) эффективную архитектуру Panda для генерации графов искажений. Мы демонстрируем, что PandaBench представляет собой серьёзный вызов для современных мультимодальных больших языковых моделей (MLLM), поскольку они не способны понять ухудшения на уровне регионов, даже при наличии явных региональных подсказок. Мы показываем, что обучение на PandaSet или использование DG в промптах пробуждает покомпонентное понимание искажений, открывая новое направление для детализированной, структурированной попарной оценки изображений.

English

In this work, we introduce a new perspective on comparative image assessment by representing an image pair as a structured composition of its regions. In contrast, existing methods focus on whole image analysis, while implicitly relying on region-level understanding. We extend the intra-image notion of a scene graph to inter-image, and propose a novel task of Distortion Graph (DG). DG treats paired images as a structured topology grounded in regions, and represents dense degradation information such as distortion type, severity, comparison and quality score in a compact interpretable graph structure. To realize the task of learning a distortion graph, we contribute (i) a region-level dataset, PandaSet, (ii) a benchmark suite, PandaBench, with varying region-level difficulty, and (iii) an efficient architecture, Panda, to generate distortion graphs. We demonstrate that PandaBench poses a significant challenge for state-of-the-art multimodal large language models (MLLMs) as they fail to understand region-level degradations even when fed with explicit region cues. We show that training on PandaSet or prompting with DG elicits region-wise distortion understanding, opening a new direction for fine-grained, structured pairwise image assessment.

Парный граф искажений паноптикума

Panoptic Pairwise Distortion Graph

Аннотация

Support