SHAMISA: Modelado de Forma de Asociaciones Estructurales Implícitas para la Evaluación de Calidad de Imágenes Sin Referencia Autosupervisada
SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment
March 14, 2026
Autores: Mahdi Naseri, Zhou Wang
cs.AI
Resumen
La Evaluación de la Calidad de Imágenes sin Referencia (NR-IQA, por sus siglas en inglés) tiene como objetivo estimar la calidad perceptual sin acceso a una imagen de referencia de calidad prístina. Aprender un modelo NR-IQA enfrenta un cuello de botella fundamental: su necesidad de una gran cantidad de etiquetas perceptuales humanas, las cuales son costosas de obtener. Proponemos SHAMISA, un marco auto-supervisado no contrastivo que aprende a partir de imágenes distorsionadas no etiquetadas aprovechando una supervisión relacional explícitamente estructurada. A diferencia de métodos anteriores que imponen restricciones de similitud binarias y rígidas, SHAMISA introduce asociaciones estructurales implícitas, definidas como relaciones suaves y controlables que son tanto conscientes de la distorsión como sensibles al contenido, inferidas a partir de metadatos sintéticos y de la estructura intrínseca de los características. Una innovación clave es nuestro motor de distorsión composicional, que genera una familia incontable de degradaciones a partir de espacios de parámetros continuos, agrupados de modo que solo varíe un factor de distorsión a la vez. Esto permite un control de grano fino sobre la similitud representacional durante el entrenamiento: las imágenes con patrones de distorsión compartidos se acercan en el espacio de embeddings, mientras que las variaciones de severidad producen desplazamientos estructurados y predecibles. Integramos estas ideas mediante grafos de relación de doble fuente que codifican tanto los perfiles de degradación conocidos como las afinidades estructurales emergentes para guiar el proceso de aprendizaje a lo largo del entrenamiento. Un codificador convolucional se entrena bajo esta supervisión y luego se congela para la inferencia, realizándose la predicción de calidad mediante un regresor lineal sobre sus características. Experimentos exhaustivos en benchmarks NR-IQA sintéticos, auténticos y de conjunto de datos cruzados demuestran que SHAMISA logra un sólido rendimiento general con una generalización y robustez mejoradas entre conjuntos de datos, todo ello sin anotaciones humanas de calidad o pérdidas contrastivas.
English
No-Reference Image Quality Assessment (NR-IQA) aims to estimate perceptual quality without access to a reference image of pristine quality. Learning an NR-IQA model faces a fundamental bottleneck: its need for a large number of costly human perceptual labels. We propose SHAMISA, a non-contrastive self-supervised framework that learns from unlabeled distorted images by leveraging explicitly structured relational supervision. Unlike prior methods that impose rigid, binary similarity constraints, SHAMISA introduces implicit structural associations, defined as soft, controllable relations that are both distortion-aware and content-sensitive, inferred from synthetic metadata and intrinsic feature structure. A key innovation is our compositional distortion engine, which generates an uncountable family of degradations from continuous parameter spaces, grouped so that only one distortion factor varies at a time. This enables fine-grained control over representational similarity during training: images with shared distortion patterns are pulled together in the embedding space, while severity variations produce structured, predictable shifts. We integrate these insights via dual-source relation graphs that encode both known degradation profiles and emergent structural affinities to guide the learning process throughout training. A convolutional encoder is trained under this supervision and then frozen for inference, with quality prediction performed by a linear regressor on its features. Extensive experiments on synthetic, authentic, and cross-dataset NR-IQA benchmarks demonstrate that SHAMISA achieves strong overall performance with improved cross-dataset generalization and robustness, all without human quality annotations or contrastive losses.