SHAMISA: Formmodellierung impliziter struktureller Assoziationen für selbstüberwachte referenzfreie Bildqualitätsbewertung
SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment
March 14, 2026
Autoren: Mahdi Naseri, Zhou Wang
cs.AI
Zusammenfassung
No-Reference Image Quality Assessment (NR-IQA) zielt darauf ab, die wahrgenommene Bildqualität ohne Zugriff auf ein Referenzbild in ursprünglicher Qualität zu schätzen. Das Erlernen eines NR-IQA-Modells stößt auf einen grundlegenden Engpass: der Bedarf an einer großen Anzahl kostspieliger menschlicher Wahrnehmungslabels. Wir schlagen SHAMISA vor, einen nicht-kontrastiven, selbstüberwachten Rahmen, der aus nicht gelabelten verzerrten Bildern lernt, indem er explizit strukturierte relationale Überwachung nutzt. Im Gegensatz zu früheren Methoden, die starre, binäre Ähnlichkeitsbedingungen vorgeben, führt SHAMISA implizite strukturelle Assoziationen ein. Diese sind definiert als weiche, steuerbare Relationen, die sowohl verzerrungsbewusst als auch inhaltsempfindlich sind und aus synthetischen Metadaten und intrinsischer Merkmalsstruktur abgeleitet werden. Eine zentrale Innovation ist unsere kompositionelle Verzerrungs-Engine, die eine nicht abzählbare Familie von Verschlechterungen aus kontinuierlichen Parameterräumen erzeugt, die so gruppiert sind, dass sich jeweils nur ein Verzerrungsfaktor ändert. Dies ermöglicht eine feinkörnige Kontrolle über die Repräsentationsähnlichkeit während des Trainings: Bilder mit gemeinsamen Verzerrungsmustern werden im Einbettungsraum zusammengeführt, während Schweregradvariationen strukturierte, vorhersehbare Verschiebungen erzeugen. Wir integrieren diese Erkenntnisse durch duale Quellen-Relationsgraphen, die sowohl bekannte Verschlechterungsprofile als auch emergente strukturelle Affinitäten kodieren, um den Lernprozess während des gesamten Trainings zu steuern. Ein konvolutionaler Encoder wird unter dieser Aufsicht trainiert und dann für den Inferenzvorgang eingefroren, wobei die Qualitätsvorhersage durch einen linearen Regressor auf seinen Merkmalen durchgeführt wird. Umfangreiche Experimente mit synthetischen, authentischen und datensatzübergreifenden NR-IQA-Benchmarks zeigen, dass SHAMISA eine starke Gesamtleistung mit verbesserter datensatzübergreifender Generalisierung und Robustheit erzielt, und das ganz ohne menschliche Qualitätsannotierungen oder kontrastive Verluste.
English
No-Reference Image Quality Assessment (NR-IQA) aims to estimate perceptual quality without access to a reference image of pristine quality. Learning an NR-IQA model faces a fundamental bottleneck: its need for a large number of costly human perceptual labels. We propose SHAMISA, a non-contrastive self-supervised framework that learns from unlabeled distorted images by leveraging explicitly structured relational supervision. Unlike prior methods that impose rigid, binary similarity constraints, SHAMISA introduces implicit structural associations, defined as soft, controllable relations that are both distortion-aware and content-sensitive, inferred from synthetic metadata and intrinsic feature structure. A key innovation is our compositional distortion engine, which generates an uncountable family of degradations from continuous parameter spaces, grouped so that only one distortion factor varies at a time. This enables fine-grained control over representational similarity during training: images with shared distortion patterns are pulled together in the embedding space, while severity variations produce structured, predictable shifts. We integrate these insights via dual-source relation graphs that encode both known degradation profiles and emergent structural affinities to guide the learning process throughout training. A convolutional encoder is trained under this supervision and then frozen for inference, with quality prediction performed by a linear regressor on its features. Extensive experiments on synthetic, authentic, and cross-dataset NR-IQA benchmarks demonstrate that SHAMISA achieves strong overall performance with improved cross-dataset generalization and robustness, all without human quality annotations or contrastive losses.