Repensando a Avaliação de Imagens em Super-Resolução
Rethinking Image Evaluation in Super-Resolution
March 17, 2025
Autores: Shaolin Su, Josep M. Rocafort, Danna Xue, David Serrano-Lozano, Lei Sun, Javier Vazquez-Corral
cs.AI
Resumo
Embora as técnicas recentes de super-resolução de imagens (SR) estejam continuamente aprimorando a qualidade perceptual de suas saídas, elas frequentemente podem falhar em avaliações quantitativas. Essa inconsistência leva a uma crescente desconfiança nas métricas de imagem existentes para avaliações de SR. Embora a avaliação de imagens dependa tanto da métrica quanto da verdade de referência (GT), os pesquisadores geralmente não inspecionam o papel das GTs, pois elas são amplamente aceitas como referências "perfeitas". No entanto, devido aos dados terem sido coletados nos primeiros anos e à falta de controle sobre outros tipos de distorções, apontamos que as GTs nos conjuntos de dados de SR existentes podem apresentar qualidade relativamente baixa, o que leva a avaliações tendenciosas. Seguindo essa observação, neste artigo, estamos interessados nas seguintes questões: As imagens GT nos conjuntos de dados de SR existentes são 100% confiáveis para avaliações de modelos? Como a qualidade da GT afeta essa avaliação? E como fazer avaliações justas se existirem GTs imperfeitas? Para responder a essas perguntas, este artigo apresenta duas contribuições principais. Primeiro, ao analisar sistematicamente sete modelos de SR de última geração em três conjuntos de dados de SR do mundo real, mostramos que o desempenho de SR pode ser consistentemente afetado por GTs de baixa qualidade, e os modelos podem ter desempenhos bastante diferentes quando a qualidade da GT é controlada. Segundo, propomos uma nova métrica de qualidade perceptual, o Índice de Qualidade Relativa (RQI), que mede a discrepância de qualidade relativa de pares de imagens, assim corrigindo as avaliações tendenciosas causadas por GTs não confiáveis. Nosso modelo proposto alcança uma consistência significativamente melhor com as opiniões humanas. Esperamos que nosso trabalho forneça insights para a comunidade de SR sobre como futuros conjuntos de dados, modelos e métricas devem ser desenvolvidos.
English
While recent advancing image super-resolution (SR) techniques are continually
improving the perceptual quality of their outputs, they can usually fail in
quantitative evaluations. This inconsistency leads to a growing distrust in
existing image metrics for SR evaluations. Though image evaluation depends on
both the metric and the reference ground truth (GT), researchers typically do
not inspect the role of GTs, as they are generally accepted as `perfect'
references. However, due to the data being collected in the early years and the
ignorance of controlling other types of distortions, we point out that GTs in
existing SR datasets can exhibit relatively poor quality, which leads to biased
evaluations. Following this observation, in this paper, we are interested in
the following questions: Are GT images in existing SR datasets 100% trustworthy
for model evaluations? How does GT quality affect this evaluation? And how to
make fair evaluations if there exist imperfect GTs? To answer these questions,
this paper presents two main contributions. First, by systematically analyzing
seven state-of-the-art SR models across three real-world SR datasets, we show
that SR performances can be consistently affected across models by low-quality
GTs, and models can perform quite differently when GT quality is controlled.
Second, we propose a novel perceptual quality metric, Relative Quality Index
(RQI), that measures the relative quality discrepancy of image pairs, thus
issuing the biased evaluations caused by unreliable GTs. Our proposed model
achieves significantly better consistency with human opinions. We expect our
work to provide insights for the SR community on how future datasets, models,
and metrics should be developed.Summary
AI-Generated Summary