SHAMISA: Modelagem com Formato de Associações Estruturais Implícitas para Avaliação Autossupervisionada da Qualidade de Imagem sem Referência

Resumo

A Avaliação da Qualidade de Imagens sem Referência (NR-IQA, do inglês *No-Reference Image Quality Assessment*) tem como objetivo estimar a qualidade perceptual sem o acesso a uma imagem de referência de qualidade imaculada. A aprendizagem de um modelo NR-IQA enfrenta um obstáculo fundamental: a sua necessidade de um grande número de rótulos perceptuais humanos, que são dispendiosos de obter. Propomos o SHAMISA, uma estrutura auto supervisionada (*self-supervised*) não contrastiva que aprende a partir de imagens distorcidas não rotuladas, aproveitando uma supervisão relacional explicitamente estruturada. Ao contrário de métodos anteriores que impõem restrições de semelhança binárias e rígidas, o SHAMISA introduz associações estruturais implícitas, definidas como relações suaves e controláveis que são simultaneamente conscientes da distorção e sensíveis ao conteúdo, inferidas a partir de metadados sintéticos e da estrutura intrínseca dos *features*. Uma inovação fundamental é o nosso motor de distorção composicional, que gera uma família incontável de degradações a partir de espaços de parâmetros contínuos, agrupados de modo que apenas um fator de distorção varie de cada vez. Isto permite um controlo de granularidade fina sobre a similaridade representacional durante o treino: imagens com padrões de distorção partilhados são aproximadas no espaço de incorporação (*embedding*), enquanto variações de severidade produzem desvios estruturados e previsíveis. Integramos estas perceções através de grafos relacionais de dupla fonte que codificam tanto perfis de degradação conhecidos como afinidades estruturais emergentes para guiar o processo de aprendizagem ao longo do treino. Um codificador convolucional é treinado sob esta supervisão e depois congelado para inferência, sendo a previsão da qualidade realizada por um regressor linear sobre os seus *features*. Experiências extensivas em *benchmarks* NR-IQA sintéticos, autênticos e de conjuntos de dados cruzados (*cross-dataset*) demonstram que o SHAMISA alcança uma forte performance global com uma generalização e robustez melhoradas entre conjuntos de dados, tudo sem anotações humanas de qualidade ou perdas contrastivas (*contrastive losses*).

English

No-Reference Image Quality Assessment (NR-IQA) aims to estimate perceptual quality without access to a reference image of pristine quality. Learning an NR-IQA model faces a fundamental bottleneck: its need for a large number of costly human perceptual labels. We propose SHAMISA, a non-contrastive self-supervised framework that learns from unlabeled distorted images by leveraging explicitly structured relational supervision. Unlike prior methods that impose rigid, binary similarity constraints, SHAMISA introduces implicit structural associations, defined as soft, controllable relations that are both distortion-aware and content-sensitive, inferred from synthetic metadata and intrinsic feature structure. A key innovation is our compositional distortion engine, which generates an uncountable family of degradations from continuous parameter spaces, grouped so that only one distortion factor varies at a time. This enables fine-grained control over representational similarity during training: images with shared distortion patterns are pulled together in the embedding space, while severity variations produce structured, predictable shifts. We integrate these insights via dual-source relation graphs that encode both known degradation profiles and emergent structural affinities to guide the learning process throughout training. A convolutional encoder is trained under this supervision and then frozen for inference, with quality prediction performed by a linear regressor on its features. Extensive experiments on synthetic, authentic, and cross-dataset NR-IQA benchmarks demonstrate that SHAMISA achieves strong overall performance with improved cross-dataset generalization and robustness, all without human quality annotations or contrastive losses.

SHAMISA: Modelagem com Formato de Associações Estruturais Implícitas para Avaliação Autossupervisionada da Qualidade de Imagem sem Referência

SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment

Resumo

Support