초해상도에서의 이미지 평가 재고
Rethinking Image Evaluation in Super-Resolution
March 17, 2025
저자: Shaolin Su, Josep M. Rocafort, Danna Xue, David Serrano-Lozano, Lei Sun, Javier Vazquez-Corral
cs.AI
초록
최근 이미지 초해상도(SR) 기술의 발전으로 출력물의 지각적 품질이 지속적으로 개선되고 있지만, 이러한 기술들은 종종 정량적 평가에서 실패할 수 있습니다. 이러한 불일치는 SR 평가를 위한 기존 이미지 메트릭에 대한 불신을 증가시키고 있습니다. 이미지 평가는 메트릭과 기준이 되는 참조 지상 참조(GT) 모두에 의존하지만, 연구자들은 일반적으로 GT를 '완벽한' 참조로 간주하여 그 역할을 검토하지 않습니다. 그러나 초기 수집된 데이터와 다른 유형의 왜곡을 통제하지 못한 점으로 인해, 기존 SR 데이터셋의 GT가 상대적으로 낮은 품질을 보일 수 있으며, 이는 편향된 평가로 이어질 수 있습니다. 이러한 관찰을 바탕으로, 본 논문에서는 다음과 같은 질문에 관심을 가집니다: 기존 SR 데이터셋의 GT 이미지는 모델 평가를 위해 100% 신뢰할 수 있는가? GT 품질이 이 평가에 어떤 영향을 미치는가? 그리고 불완전한 GT가 존재할 경우 공정한 평가를 어떻게 할 수 있는가? 이러한 질문에 답하기 위해, 본 논문은 두 가지 주요 기여를 제시합니다. 첫째, 세 가지 실제 SR 데이터셋에서 최신의 7개 SR 모델을 체계적으로 분석함으로써, SR 성능이 저품질 GT에 의해 모델 간 일관되게 영향을 받을 수 있으며, GT 품질이 통제될 때 모델의 성능이 상당히 다를 수 있음을 보여줍니다. 둘째, 이미지 쌍의 상대적 품질 차이를 측정하는 새로운 지각적 품질 메트릭인 상대 품질 지수(RQI)를 제안하여, 신뢰할 수 없는 GT로 인한 편향된 평가를 해결합니다. 우리가 제안한 모델은 인간의 의견과 훨씬 더 일관된 결과를 보여줍니다. 우리의 연구가 SR 커뮤니티에 향후 데이터셋, 모델, 메트릭이 어떻게 개발되어야 하는지에 대한 통찰을 제공할 것으로 기대합니다.
English
While recent advancing image super-resolution (SR) techniques are continually
improving the perceptual quality of their outputs, they can usually fail in
quantitative evaluations. This inconsistency leads to a growing distrust in
existing image metrics for SR evaluations. Though image evaluation depends on
both the metric and the reference ground truth (GT), researchers typically do
not inspect the role of GTs, as they are generally accepted as `perfect'
references. However, due to the data being collected in the early years and the
ignorance of controlling other types of distortions, we point out that GTs in
existing SR datasets can exhibit relatively poor quality, which leads to biased
evaluations. Following this observation, in this paper, we are interested in
the following questions: Are GT images in existing SR datasets 100% trustworthy
for model evaluations? How does GT quality affect this evaluation? And how to
make fair evaluations if there exist imperfect GTs? To answer these questions,
this paper presents two main contributions. First, by systematically analyzing
seven state-of-the-art SR models across three real-world SR datasets, we show
that SR performances can be consistently affected across models by low-quality
GTs, and models can perform quite differently when GT quality is controlled.
Second, we propose a novel perceptual quality metric, Relative Quality Index
(RQI), that measures the relative quality discrepancy of image pairs, thus
issuing the biased evaluations caused by unreliable GTs. Our proposed model
achieves significantly better consistency with human opinions. We expect our
work to provide insights for the SR community on how future datasets, models,
and metrics should be developed.Summary
AI-Generated Summary