Graphe de Distortion Paire Panoptique

Résumé

Dans ce travail, nous introduisons une nouvelle perspective pour l'évaluation comparative d'images en représentant une paire d'images comme une composition structurée de ses régions. En revanche, les méthodes existantes se concentrent sur l'analyse de l'image entière tout en s'appuyant implicitement sur une compréhension au niveau régional. Nous étendons la notion intra-image de graphe de scène à l'inter-image, et proposons une nouvelle tâche appelée Graphe de Distorsion (GD). Le GD traite les images appariées comme une topologie structurée ancrée dans les régions, et représente des informations de dégradation denses telles que le type de distorsion, la sévérité, la comparaison et le score de qualité dans une structure graphique compacte et interprétable. Pour concrétiser la tâche d'apprentissage d'un graphe de distorsion, nous contribuons par (i) un jeu de données au niveau régional, PandaSet, (ii) une suite de référence, PandaBench, avec des niveaux de difficulté régionaux variables, et (iii) une architecture efficace, Panda, pour générer des graphes de distorsion. Nous démontrons que PandaBench représente un défi significatif pour les modèles de langage de grande taille multimodaux (MLLM) de pointe, car ils échouent à comprendre les dégradations au niveau régional même lorsqu'ils reçoivent des indices régionaux explicites. Nous montrons que l'entraînement sur PandaSet ou l'utilisation du GD comme prompt suscite une compréhension des distorsions région par région, ouvrant une nouvelle voie pour une évaluation par paires d'images fine et structurée.

English

In this work, we introduce a new perspective on comparative image assessment by representing an image pair as a structured composition of its regions. In contrast, existing methods focus on whole image analysis, while implicitly relying on region-level understanding. We extend the intra-image notion of a scene graph to inter-image, and propose a novel task of Distortion Graph (DG). DG treats paired images as a structured topology grounded in regions, and represents dense degradation information such as distortion type, severity, comparison and quality score in a compact interpretable graph structure. To realize the task of learning a distortion graph, we contribute (i) a region-level dataset, PandaSet, (ii) a benchmark suite, PandaBench, with varying region-level difficulty, and (iii) an efficient architecture, Panda, to generate distortion graphs. We demonstrate that PandaBench poses a significant challenge for state-of-the-art multimodal large language models (MLLMs) as they fail to understand region-level degradations even when fed with explicit region cues. We show that training on PandaSet or prompting with DG elicits region-wise distortion understanding, opening a new direction for fine-grained, structured pairwise image assessment.

Graphe de Distortion Paire Panoptique

Panoptic Pairwise Distortion Graph

Résumé

Support