SHAMISA: Modellazione Sagomata delle Associazioni Strutturali Implicite per la Valutazione della Qualità dell'Immagine Autosupervisionata Senza Riferimento
SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment
March 14, 2026
Autori: Mahdi Naseri, Zhou Wang
cs.AI
Abstract
La valutazione della qualità dell'immagine senza riferimento (NR-IQA) mira a stimare la qualità percettiva senza avere accesso a un'immagine di riferimento di qualità pristina. L'apprendimento di un modello NR-IQA affronta un collo di bottiglia fondamentale: la necessità di un gran numero di etichette percettive umane, costose da ottenere. Proponiamo SHAMISA, un framework auto-supervisionato non contrastivo che apprende da immagini distorte non etichettate sfruttando una supervisione relazionale esplicitamente strutturata. A differenza dei metodi precedenti che impongono vincoli di similarità rigidi e binari, SHAMISA introduce associazioni strutturali implicite, definite come relazioni morbide e controllabili che sono sia consapevoli della distorsione che sensibili al contenuto, dedotte da metadati sintetici e dalla struttura intrinseca delle feature. Un'innovazione chiave è il nostro motore di distorsione composizionale, che genera una famiglia non numerabile di degradazioni a partire da spazi di parametri continui, raggruppati in modo che solo un fattore di distorsione vari alla volta. Ciò consente un controllo fine della similarità rappresentativa durante l'addestramento: le immagini con pattern di distorsione condivisi vengono avvicinate nello spazio di embedding, mentre le variazioni di gravità producono spostamenti strutturati e prevedibili. Integriamo queste intuizioni tramite grafi relazionali a doppia sorgente che codificano sia i profili di degradazione noti che le affinità strutturali emergenti per guidare il processo di apprendimento durante tutto l'addestramento. Un encoder convoluzionale viene addestrato sotto questa supervisione e poi congelato per l'inferenza, con la previsione della qualità eseguita da un regressore lineare sulle sue feature. Esperimenti estesi su benchmark NR-IQA sintetici, autentici e cross-dataset dimostrano che SHAMISA raggiunge prestazioni complessive solide con una generalizzazione e robustezza cross-dataset migliorate, il tutto senza annotazioni umane della qualità o loss contrastive.
English
No-Reference Image Quality Assessment (NR-IQA) aims to estimate perceptual quality without access to a reference image of pristine quality. Learning an NR-IQA model faces a fundamental bottleneck: its need for a large number of costly human perceptual labels. We propose SHAMISA, a non-contrastive self-supervised framework that learns from unlabeled distorted images by leveraging explicitly structured relational supervision. Unlike prior methods that impose rigid, binary similarity constraints, SHAMISA introduces implicit structural associations, defined as soft, controllable relations that are both distortion-aware and content-sensitive, inferred from synthetic metadata and intrinsic feature structure. A key innovation is our compositional distortion engine, which generates an uncountable family of degradations from continuous parameter spaces, grouped so that only one distortion factor varies at a time. This enables fine-grained control over representational similarity during training: images with shared distortion patterns are pulled together in the embedding space, while severity variations produce structured, predictable shifts. We integrate these insights via dual-source relation graphs that encode both known degradation profiles and emergent structural affinities to guide the learning process throughout training. A convolutional encoder is trained under this supervision and then frozen for inference, with quality prediction performed by a linear regressor on its features. Extensive experiments on synthetic, authentic, and cross-dataset NR-IQA benchmarks demonstrate that SHAMISA achieves strong overall performance with improved cross-dataset generalization and robustness, all without human quality annotations or contrastive losses.