SHAMISA : Modélisation à Forme des Associations Structurelles Implicites pour l'Évaluation de la Qualité d'Image Sans Référence en Auto-supervision
SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment
March 14, 2026
Auteurs: Mahdi Naseri, Zhou Wang
cs.AI
Résumé
L'évaluation de la qualité d'image sans référence (NR-IQA) vise à estimer la qualité perceptuelle sans avoir accès à une image de référence de qualité parfaite. L'apprentissage d'un modèle NR-IQA se heurte à un goulot d'étranglement fondamental : son besoin d'un grand nombre d'annotations perceptuelles humaines, coûteuses à obtenir. Nous proposons SHAMISA, un cadre auto-supervisé non contrastif qui apprend à partir d'images dégradées non annotées en exploitant une supervision relationnelle explicitement structurée. Contrairement aux méthodes antérieures qui imposent des contraintes de similarité binaires et rigides, SHAMISA introduit des associations structurelles implicites, définies comme des relations douces et contrôlables qui sont à la fois sensibles à la distorsion et au contenu, inférées à partir de métadonnées synthétiques et de la structure intrinsèque des caractéristiques. Une innovation clé est notre moteur de distorsion compositionnel, qui génère une famille indénombrable de dégradations à partir d'espaces de paramètres continus, regroupées de telle sorte qu'un seul facteur de distorsion varie à la fois. Cela permet un contrôle fin de la similarité représentationnelle pendant l'entraînement : les images partageant des patterns de distorsion sont rapprochées dans l'espace d'incorporation, tandis que les variations de sévérité produisent des déplacements structurés et prévisibles. Nous intégrons ces concepts via des graphes relationnels à double source qui codent à la fois les profils de dégradation connus et les affinités structurelles émergentes pour guider le processus d'apprentissage tout au long de l'entraînement. Un encodeur convolutionnel est entraîné sous cette supervision puis gelé pour l'inférence, la prédiction de qualité étant effectuée par un régresseur linéaire sur ses caractéristiques. Des expériences approfondies sur des benchmarks NR-IQA synthétiques, authentiques et inter-jeux de données démontrent que SHAMISA atteint de solides performances globales avec une généralisation et une robustesse inter-jeux de données améliorées, le tout sans annotations de qualité humaines ni pertes contrastives.
English
No-Reference Image Quality Assessment (NR-IQA) aims to estimate perceptual quality without access to a reference image of pristine quality. Learning an NR-IQA model faces a fundamental bottleneck: its need for a large number of costly human perceptual labels. We propose SHAMISA, a non-contrastive self-supervised framework that learns from unlabeled distorted images by leveraging explicitly structured relational supervision. Unlike prior methods that impose rigid, binary similarity constraints, SHAMISA introduces implicit structural associations, defined as soft, controllable relations that are both distortion-aware and content-sensitive, inferred from synthetic metadata and intrinsic feature structure. A key innovation is our compositional distortion engine, which generates an uncountable family of degradations from continuous parameter spaces, grouped so that only one distortion factor varies at a time. This enables fine-grained control over representational similarity during training: images with shared distortion patterns are pulled together in the embedding space, while severity variations produce structured, predictable shifts. We integrate these insights via dual-source relation graphs that encode both known degradation profiles and emergent structural affinities to guide the learning process throughout training. A convolutional encoder is trained under this supervision and then frozen for inference, with quality prediction performed by a linear regressor on its features. Extensive experiments on synthetic, authentic, and cross-dataset NR-IQA benchmarks demonstrate that SHAMISA achieves strong overall performance with improved cross-dataset generalization and robustness, all without human quality annotations or contrastive losses.