Grafo de Distorsión Panóptica por Pares

Resumen

En este trabajo, presentamos una nueva perspectiva sobre la evaluación comparativa de imágenes al representar un par de imágenes como una composición estructurada de sus regiones. Por el contrario, los métodos existentes se centran en el análisis de la imagen completa, mientras que dependen implícitamente de una comprensión a nivel de región. Extendemos la noción intra-imagen de un grafo de escena a inter-imagen, y proponemos una nueva tarea denominada Grafo de Distorsión (GD). El GD trata las imágenes emparejadas como una topología estructurada basada en regiones, y representa información densa de degradación, como el tipo de distorsión, la severidad, la comparación y la puntuación de calidad, en una estructura de grafo compacta e interpretable. Para materializar la tarea de aprender un grafo de distorsión, contribuimos con (i) un conjunto de datos a nivel de región, PandaSet, (ii) un conjunto de pruebas de referencia, PandaBench, con dificultad variable a nivel de región, y (iii) una arquitectura eficiente, Panda, para generar grafos de distorsión. Demostramos que PandaBench plantea un desafío significativo para los modelos de lenguaje grande multimodales (MLLM) de última generación, ya que no logran comprender las degradaciones a nivel de región incluso cuando se les proporcionan pistas regionales explícitas. Mostramos que el entrenamiento con PandaSet o el uso de indicaciones con GD suscita una comprensión de la distorsión por regiones, abriendo una nueva dirección para la evaluación de pares de imágenes estructurada y de grano fino.

English

In this work, we introduce a new perspective on comparative image assessment by representing an image pair as a structured composition of its regions. In contrast, existing methods focus on whole image analysis, while implicitly relying on region-level understanding. We extend the intra-image notion of a scene graph to inter-image, and propose a novel task of Distortion Graph (DG). DG treats paired images as a structured topology grounded in regions, and represents dense degradation information such as distortion type, severity, comparison and quality score in a compact interpretable graph structure. To realize the task of learning a distortion graph, we contribute (i) a region-level dataset, PandaSet, (ii) a benchmark suite, PandaBench, with varying region-level difficulty, and (iii) an efficient architecture, Panda, to generate distortion graphs. We demonstrate that PandaBench poses a significant challenge for state-of-the-art multimodal large language models (MLLMs) as they fail to understand region-level degradations even when fed with explicit region cues. We show that training on PandaSet or prompting with DG elicits region-wise distortion understanding, opening a new direction for fine-grained, structured pairwise image assessment.

Grafo de Distorsión Panóptica por Pares

Panoptic Pairwise Distortion Graph

Resumen

Support