ChatPaper.aiChatPaper

SHAMISA: 자가 지도 무참조 이미지 품질 평가를 위한 내재적 구조 연관성 형상 모델링

SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment

March 14, 2026
저자: Mahdi Naseri, Zhou Wang
cs.AI

초록

참조 없는 영상 품질 평가(NR-IQA)는 원본 품질의 참조 영상 없이도 지각적 품질을 추정하는 것을 목표로 합니다. NR-IQA 모델 학습은 많은 양의 고비용 인간 지각 라벨이 필요하다는 근본적인 병목 현상을 마주합니다. 본 연구에서는 명시적으로 구조화된 관계적 감독을 활용하여 라벨 없는 왜곡 영상으로부터 학습하는 비대조적 자기 지도 프레임워크인 SHAMISA를 제안합니다. 엄격한 이분법적 유사성 제약을 부과하는 기존 방법과 달리, SHAMISA는 합성 메타데이터와 내재적 특징 구조로부터 추론되며, 왜곡 인지적 및 콘텐츠 민감적인 연성 제어 관계로 정의된 암묵적 구조적 연관을 도입합니다. 핵심 혁신은 연속 매개변수 공간에서 셀 수 없이 많은 종류의 열화를 생성하는 구성적 왜곡 엔진으로, 한 번에 하나의 왜곡 요인만 변하도록 그룹화됩니다. 이를 통해 학습 중 표현 유사성에 대한 세밀한 제어가 가능해집니다: 동일한 왜곡 패턴을 공유하는 영상은 임베딩 공간에서 가까워지고, 심각도 변화는 구조화되고 예측 가능한 이동을 생성합니다. 우리는 이러한 통찰력을 알려진 열화 프로파일과 학습 과정 전반을 안내하는 발생적 구조적 유사성을 모두 인코딩하는 이중 소스 관계 그래프를 통해 통합합니다. 합성 곡선 인코더는 이 감독 하에 학습된 후 추론을 위해 고정되며, 품질 예측은 해당 특징에 대한 선형 회귀기에 의해 수행됩니다. 합성, 실제 및 교차 데이터셋 NR-IQA 벤치마크에서의 광범위한 실험을 통해 SHAMISA가 인간의 품질 주해나 대조 손실 없이도 향상된 교차 데이터셋 일반화 및 강건성을 바탕으로 강력한 전반적 성능을 달성함을 입증합니다.
English
No-Reference Image Quality Assessment (NR-IQA) aims to estimate perceptual quality without access to a reference image of pristine quality. Learning an NR-IQA model faces a fundamental bottleneck: its need for a large number of costly human perceptual labels. We propose SHAMISA, a non-contrastive self-supervised framework that learns from unlabeled distorted images by leveraging explicitly structured relational supervision. Unlike prior methods that impose rigid, binary similarity constraints, SHAMISA introduces implicit structural associations, defined as soft, controllable relations that are both distortion-aware and content-sensitive, inferred from synthetic metadata and intrinsic feature structure. A key innovation is our compositional distortion engine, which generates an uncountable family of degradations from continuous parameter spaces, grouped so that only one distortion factor varies at a time. This enables fine-grained control over representational similarity during training: images with shared distortion patterns are pulled together in the embedding space, while severity variations produce structured, predictable shifts. We integrate these insights via dual-source relation graphs that encode both known degradation profiles and emergent structural affinities to guide the learning process throughout training. A convolutional encoder is trained under this supervision and then frozen for inference, with quality prediction performed by a linear regressor on its features. Extensive experiments on synthetic, authentic, and cross-dataset NR-IQA benchmarks demonstrate that SHAMISA achieves strong overall performance with improved cross-dataset generalization and robustness, all without human quality annotations or contrastive losses.
PDF11March 26, 2026