ChatPaper.aiChatPaper

Grafo di Distorsione a Coppie Panottico

Panoptic Pairwise Distortion Graph

April 13, 2026
Autori: Muhammad Kamran Janjua, Abdul Wahab, Bahador Rashidi
cs.AI

Abstract

In questo lavoro, introduciamo una nuova prospettiva sulla valutazione comparativa di immagini rappresentando una coppia di immagini come una composizione strutturata delle sue regioni. Al contrario, i metodi esistenti si concentrano sull'analisi dell'immagine nel suo complesso, basandosi implicitamente su una comprensione a livello di regione. Estendiamo la nozione intra-immagine di un grafo di scene a una inter-immagine e proponiamo un nuovo compito denominato Distortion Graph (DG). Il DG tratta le immagini in coppia come una topologia strutturata ancorata alle regioni e rappresenta informazioni dense sul degrado, come il tipo di distorsione, la gravità, il confronto e il punteggio di qualità, in una struttura di grafo compatta e interpretabile. Per realizzare il compito di apprendimento di un distortion graph, forniamo (i) un dataset a livello regionale, PandaSet, (ii) una suite di benchmark, PandaBench, con diversi livelli di difficoltà regionale, e (iii) un'architettura efficiente, Panda, per generare distortion graph. Dimostriamo che PandaBench rappresenta una sfida significativa per i modelli linguistici multimodali all'avanguardia (MLLM), poiché questi non riescono a comprendere i degradi a livello regionale anche quando vengono forniti loro indizi espliciti sulle regioni. Mostriamo che l'addestramento su PandaSet o il prompting con il DG suscita una comprensione delle distorsioni per regione, aprendo una nuova direzione per la valutazione pairwise di immagini strutturata e fine.
English
In this work, we introduce a new perspective on comparative image assessment by representing an image pair as a structured composition of its regions. In contrast, existing methods focus on whole image analysis, while implicitly relying on region-level understanding. We extend the intra-image notion of a scene graph to inter-image, and propose a novel task of Distortion Graph (DG). DG treats paired images as a structured topology grounded in regions, and represents dense degradation information such as distortion type, severity, comparison and quality score in a compact interpretable graph structure. To realize the task of learning a distortion graph, we contribute (i) a region-level dataset, PandaSet, (ii) a benchmark suite, PandaBench, with varying region-level difficulty, and (iii) an efficient architecture, Panda, to generate distortion graphs. We demonstrate that PandaBench poses a significant challenge for state-of-the-art multimodal large language models (MLLMs) as they fail to understand region-level degradations even when fed with explicit region cues. We show that training on PandaSet or prompting with DG elicits region-wise distortion understanding, opening a new direction for fine-grained, structured pairwise image assessment.
PDF22April 21, 2026