ChatPaper.aiChatPaper

SHAMISA: Моделирование структурных ассоциаций с учетом формы для самообучающейся оценки качества изображений без опорных образцов

SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment

March 14, 2026
Авторы: Mahdi Naseri, Zhou Wang
cs.AI

Аннотация

Методы оценки качества изображений без эталона (NR-IQA) ставят целью оценку перцептивного качества без доступа к эталонному изображению безупречного качества. Обучение модели NR-IQA сталкивается с фундаментальным ограничением: необходимостью в большом количестве дорогостоящих перцептивных меток, поставленных человеком. Мы предлагаем SHAMISA, неконтрастивный самообучающийся фреймворк, который обучается на немаркированных искаженных изображениях, используя явно структурированное реляционное руководство. В отличие от предыдущих методов, накладывающих жесткие бинарные ограничения сходства, SHAMISA вводит неявные структурные ассоциации, определяемые как мягкие, управляемые отношения, которые одновременно учитывают искажения и чувствительны к содержанию; эти отношения выводятся из синтетических метаданных и внутренней структуры признаков. Ключевым нововведением является наш композиционный механизм искажений, который генерирует несчетное множество деградаций из непрерывных пространств параметров, сгруппированных таким образом, что в каждый момент времени изменяется только один фактор искажения. Это позволяет осуществлять детальный контроль над репрезентационным сходством во время обучения: изображения с общими паттернами искажений сближаются в пространстве embeddings, в то время как вариации степени тяжести искажений порождают структурированные, предсказуемые смещения. Мы интегрируем эти идеи с помощью двухисточниковых реляционных графов, которые кодируют как известные профили деградации, так и возникающие структурные сходства, чтобы направлять процесс обучения на всем его протяжении. Сверточный кодировщик обучается под таким руководством, а затем замораживается для вывода; прогнозирование качества выполняется линейным регрессором на основе его признаков. Многочисленные эксперименты на синтетических, аутентичных и межнаборных бенчмарках NR-IQA демонстрируют, что SHAMISA достигает высокой общей производительности с улучшенной межнаборной обобщающей способностью и устойчивостью, и все это — без использования аннотаций качества от человека или контрастивных функций потерь.
English
No-Reference Image Quality Assessment (NR-IQA) aims to estimate perceptual quality without access to a reference image of pristine quality. Learning an NR-IQA model faces a fundamental bottleneck: its need for a large number of costly human perceptual labels. We propose SHAMISA, a non-contrastive self-supervised framework that learns from unlabeled distorted images by leveraging explicitly structured relational supervision. Unlike prior methods that impose rigid, binary similarity constraints, SHAMISA introduces implicit structural associations, defined as soft, controllable relations that are both distortion-aware and content-sensitive, inferred from synthetic metadata and intrinsic feature structure. A key innovation is our compositional distortion engine, which generates an uncountable family of degradations from continuous parameter spaces, grouped so that only one distortion factor varies at a time. This enables fine-grained control over representational similarity during training: images with shared distortion patterns are pulled together in the embedding space, while severity variations produce structured, predictable shifts. We integrate these insights via dual-source relation graphs that encode both known degradation profiles and emergent structural affinities to guide the learning process throughout training. A convolutional encoder is trained under this supervision and then frozen for inference, with quality prediction performed by a linear regressor on its features. Extensive experiments on synthetic, authentic, and cross-dataset NR-IQA benchmarks demonstrate that SHAMISA achieves strong overall performance with improved cross-dataset generalization and robustness, all without human quality annotations or contrastive losses.
PDF11March 26, 2026