パノプティックペアワーズ歪みグラフ
Panoptic Pairwise Distortion Graph
April 13, 2026
著者: Muhammad Kamran Janjua, Abdul Wahab, Bahador Rashidi
cs.AI
要旨
本研究では、画像ペアをその領域からなる構造化された構成として表現するという、比較画像評価に対する新たな視点を提案する。既存手法は画像全体の分析に重点を置きつつ、領域レベルの理解に暗黙的に依存しているのに対し、我々はシーングラフという画像内の概念を画像間へ拡張し、Distortion Graph(DG)という新規タスクを提案する。DGはペア画像を領域に基づく構造化されたトポロジーとして扱い、歪みの種類、重度、比較結果、品質スコアといった高密度な劣化情報を、コンパクトで解釈可能なグラフ構造で表現する。歪みグラフを学習するタスクを実現するため、我々は(i) 領域レベルのデータセットPandaSet、(ii) 様々な領域レベルの難易度を持つベンチマークスイートPandaBench、(iii) 歪みグラフを生成する効率的なアーキテクチャPandaを貢献する。最新のマルチモーダル大規模言語モデル(MLLM)は、明示的な領域の手がかりが与えられても領域レベルの劣化を理解できず、PandaBenchが重大な課題を提起することを実証する。PandaSetでの学習またはDGを用いたプロンプティングが、領域ごとの歪み理解を誘起し、きめ細かい構造化されたペアワイズ画像評価の新たな方向性を開くことを示す。
English
In this work, we introduce a new perspective on comparative image assessment by representing an image pair as a structured composition of its regions. In contrast, existing methods focus on whole image analysis, while implicitly relying on region-level understanding. We extend the intra-image notion of a scene graph to inter-image, and propose a novel task of Distortion Graph (DG). DG treats paired images as a structured topology grounded in regions, and represents dense degradation information such as distortion type, severity, comparison and quality score in a compact interpretable graph structure. To realize the task of learning a distortion graph, we contribute (i) a region-level dataset, PandaSet, (ii) a benchmark suite, PandaBench, with varying region-level difficulty, and (iii) an efficient architecture, Panda, to generate distortion graphs. We demonstrate that PandaBench poses a significant challenge for state-of-the-art multimodal large language models (MLLMs) as they fail to understand region-level degradations even when fed with explicit region cues. We show that training on PandaSet or prompting with DG elicits region-wise distortion understanding, opening a new direction for fine-grained, structured pairwise image assessment.