Grafo de Distorção Pareada Panóptica

Resumo

Neste trabalho, introduzimos uma nova perspetiva sobre a avaliação comparativa de imagens, representando um par de imagens como uma composição estruturada das suas regiões. Em contraste, os métodos existentes concentram-se na análise da imagem como um todo, dependendo implicitamente de uma compreensão a nível regional. Expandimos a noção intra-imagem de um grafo de cena para inter-imagem e propomos uma nova tarefa: o Grafo de Distorção (DG). O DG trata pares de imagens como uma topologia estruturada baseada em regiões e representa informações densas de degradação, como o tipo de distorção, severidade, comparação e pontuação de qualidade, numa estrutura de grafo compacta e interpretável. Para concretizar a tarefa de aprendizagem de um grafo de distorção, contribuímos com (i) um conjunto de dados a nível regional, o PandaSet, (ii) um conjunto de benchmarks, o PandaBench, com variados níveis de dificuldade regional, e (iii) uma arquitetura eficiente, a Panda, para gerar grafos de distorção. Demonstramos que o PandaBench representa um desafio significativo para os modelos de linguagem grandes multimodais (MLLMs) state-of-the-art, uma vez que estes falham em compreender as degradações a nível regional, mesmo quando recebem pistas regionais explícitas. Mostramos que o treino no PandaSet ou a utilização de *prompts* com DG suscita uma compreensão da distorção por região, abrindo uma nova direção para a avaliação de pares de imagens estruturada e de alto detalhe.

English

In this work, we introduce a new perspective on comparative image assessment by representing an image pair as a structured composition of its regions. In contrast, existing methods focus on whole image analysis, while implicitly relying on region-level understanding. We extend the intra-image notion of a scene graph to inter-image, and propose a novel task of Distortion Graph (DG). DG treats paired images as a structured topology grounded in regions, and represents dense degradation information such as distortion type, severity, comparison and quality score in a compact interpretable graph structure. To realize the task of learning a distortion graph, we contribute (i) a region-level dataset, PandaSet, (ii) a benchmark suite, PandaBench, with varying region-level difficulty, and (iii) an efficient architecture, Panda, to generate distortion graphs. We demonstrate that PandaBench poses a significant challenge for state-of-the-art multimodal large language models (MLLMs) as they fail to understand region-level degradations even when fed with explicit region cues. We show that training on PandaSet or prompting with DG elicits region-wise distortion understanding, opening a new direction for fine-grained, structured pairwise image assessment.

Grafo de Distorção Pareada Panóptica

Panoptic Pairwise Distortion Graph

Resumo

Support