Panoptischer paarweiser Verzerrungsgraph

Zusammenfassung

In dieser Arbeit führen wir eine neue Perspektive zur vergleichenden Bildbewertung ein, indem wir ein Bildpaar als strukturierte Komposition seiner Regionen repräsentieren. Im Gegensatz dazu konzentrieren sich bestehende Methoden auf die Analyse des Gesamtbildes, während sie sich implizit auf ein regionsbasiertes Verständnis stützen. Wir erweitern das intra-bildliche Konzept eines Szenengraphen auf inter-bildliche Beziehungen und schlagen eine neuartige Aufgabe vor: den Distortionsgraphen (DG). Der DG behandelt Bildpaare als eine in Regionen verankerte strukturierte Topologie und repräsentiert dichte Degradationsinformationen wie Verzerrungstyp, Schweregrad, Vergleich und Qualitätsbewertung in einer kompakten, interpretierbaren Graphenstruktur. Um die Aufgabe des Lernens eines Distortionsgraphen zu realisieren, tragen wir bei: (i) einen regionsbasierten Datensatz, PandaSet, (ii) eine Benchmark-Suite, PandaBench, mit variierender regionsbasierter Schwierigkeit, und (iii) eine effiziente Architektur, Panda, zur Generierung von Distortionsgraphen. Wir zeigen, dass PandaBench eine erhebliche Herausforderung für state-of-the-art multimodale Large Language Models (MLLMs) darstellt, da diese regionsbasierte Degradationen selbst bei expliziten Regionshinweisen nicht verstehen. Wir demonstrieren, dass Training auf PandaSet oder Prompting mit DG ein regionsweises Verständnis von Verzerrungen hervorruft und damit eine neue Richtung für feinkörnige, strukturierte paarweise Bildbewertung eröffnet.

English

In this work, we introduce a new perspective on comparative image assessment by representing an image pair as a structured composition of its regions. In contrast, existing methods focus on whole image analysis, while implicitly relying on region-level understanding. We extend the intra-image notion of a scene graph to inter-image, and propose a novel task of Distortion Graph (DG). DG treats paired images as a structured topology grounded in regions, and represents dense degradation information such as distortion type, severity, comparison and quality score in a compact interpretable graph structure. To realize the task of learning a distortion graph, we contribute (i) a region-level dataset, PandaSet, (ii) a benchmark suite, PandaBench, with varying region-level difficulty, and (iii) an efficient architecture, Panda, to generate distortion graphs. We demonstrate that PandaBench poses a significant challenge for state-of-the-art multimodal large language models (MLLMs) as they fail to understand region-level degradations even when fed with explicit region cues. We show that training on PandaSet or prompting with DG elicits region-wise distortion understanding, opening a new direction for fine-grained, structured pairwise image assessment.

Panoptischer paarweiser Verzerrungsgraph

Panoptic Pairwise Distortion Graph

Zusammenfassung

Support