SHAMISA: Vormgemodelleerde Impliciete Structurele Associaties voor Zelf-gesuperviseerde Referentieloze Beeldkwaliteitsbeoordeling
SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment
March 14, 2026
Auteurs: Mahdi Naseri, Zhou Wang
cs.AI
Samenvatting
No-Reference Image Quality Assessment (NR-IQA) heeft als doel de perceptuele kwaliteit in te schatten zonder toegang tot een referentiebeeld van onberispelijke kwaliteit. Het leren van een NR-IQA-model stuit op een fundamentele beperking: de behoefte aan een groot aantal kostbare menselijke perceptuele labels. Wij stellen SHAMISA voor, een niet-contrastief zelfgesuperviseerd raamwerk dat leert van ongelabelde verstoorde beelden door expliciet gestructureerde relationele supervisie te benutten. In tegenstelling tot eerdere methoden die rigide, binaire gelijkheidsbeperkingen opleggen, introduceert SHAMISA impliciete structurele associaties, gedefinieerd als zachte, controleerbare relaties die zowel verstoringsbewust als inhoudsgevoelig zijn, afgeleid van synthetische metadata en intrinsieke kenmerkstructuur. Een belangrijke innovatie is onze compositionele verstoringsengine, die een ontelbare familie van degradaties genereert uit continue parameterruimtes, gegroepeerd zodat slechts één verstoringsfactor per keer varieert. Dit maakt fijnmazige controle over representatiegelijkenis tijdens de training mogelijk: beelden met gedeelde verstoringspatronen worden in de embeddingruimte naar elkaar toe getrokken, terwijl variaties in ernst gestructureerde, voorspelbare verschuivingen produceren. We integreren deze inzichten via dual-source relatiegrafen die zowel bekende degradatieprofielen als emergente structurele verwantschappen coderen om het leerproces gedurende de training te sturen. Een convolutionele encoder wordt onder deze supervisie getraind en vervolgens bevroren voor inferentie, waarbij kwaliteitsvoorspelling wordt uitgevoerd door een lineaire regressor op zijn kenmerken. Uitgebreide experimenten op synthetische, authentieke en cross-dataset NR-IQA benchmarks tonen aan dat SHAMISA sterke algemene prestaties bereikt met verbeterde cross-dataset generalisatie en robuustheid, allemaal zonder menselijke kwaliteitsannotaties of contrastieve verliezen.
English
No-Reference Image Quality Assessment (NR-IQA) aims to estimate perceptual quality without access to a reference image of pristine quality. Learning an NR-IQA model faces a fundamental bottleneck: its need for a large number of costly human perceptual labels. We propose SHAMISA, a non-contrastive self-supervised framework that learns from unlabeled distorted images by leveraging explicitly structured relational supervision. Unlike prior methods that impose rigid, binary similarity constraints, SHAMISA introduces implicit structural associations, defined as soft, controllable relations that are both distortion-aware and content-sensitive, inferred from synthetic metadata and intrinsic feature structure. A key innovation is our compositional distortion engine, which generates an uncountable family of degradations from continuous parameter spaces, grouped so that only one distortion factor varies at a time. This enables fine-grained control over representational similarity during training: images with shared distortion patterns are pulled together in the embedding space, while severity variations produce structured, predictable shifts. We integrate these insights via dual-source relation graphs that encode both known degradation profiles and emergent structural affinities to guide the learning process throughout training. A convolutional encoder is trained under this supervision and then frozen for inference, with quality prediction performed by a linear regressor on its features. Extensive experiments on synthetic, authentic, and cross-dataset NR-IQA benchmarks demonstrate that SHAMISA achieves strong overall performance with improved cross-dataset generalization and robustness, all without human quality annotations or contrastive losses.