Quão Precisos são os Modelos de Qualidade de Vídeo para Super-Resolução de Vídeo Baseada em Difusão?

Resumo

Abordagens recentes de super-resolução de vídeo (VSR) utilizam redes neurais profundas para melhorar vídeos de entrada de baixa qualidade e recuperar detalhes visuais, com métodos baseados em difusão, em particular, mostrando resultados promissores. Neste artigo, investigamos se modelos de qualidade de vídeo existentes podem ser usados para avaliar o desempenho desses métodos de VSR baseados em difusão, comparando as previsões dos modelos com resultados de um teste subjetivo. O estudo compara seis métodos de redimensionamento (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) aplicados a vídeos de baixa resolução comprimidos (AV1 e DCVC-RT) e não comprimidos, considerando a reprodução em uma tela UHD-1/4K. Uma gama de modelos de qualidade de referência completa e sem referência é utilizada para avaliar sua aplicabilidade a este novo tipo de degradação de qualidade, com foco no desempenho intra-sequência. Os resultados destacam que modelos de referência completa baseados em CNN, como LPIPS, DISTS e CVQA-FR, apresentam coeficientes de correlação significativamente mais altos do que os modelos de referência completa convencionais e os modelos sem referência testados. A maioria superestima os resultados excessivamente nítidos do SCST, com o VMAF falhando principalmente devido a inconsistências espaciais introduzidas pelo Starlight Mini. Nenhum dos modelos de qualidade de vídeo testados atingiu precisão suficiente para substituir testes subjetivos complementares. Os vídeos de referência, degradados e redimensionados, bem como as avaliações dos usuários e as pontuações dos modelos, são disponibilizados com o artigo em https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR como dados abertos.

English

Recent video super-resolution (VSR) approaches use deep neural networks to enhance low-quality input videos and recover visual detail, with diffusion-based methods in particular showing promising results. In this paper, we investigate whether existing video quality models can be used to assess the performance of these diffusion-based VSR methods, by comparing model predictions with results from a subjective test. The study compares six upscaling methods (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) applied to both compressed (AV1 and DCVC-RT) and uncompressed low-resolution videos considering the play-out on a UHD-1/4K screen. A range of full- and no-reference quality models are used to assess their applicability to this new type of quality degradation, focusing on within-sequence performance. The results highlight that CNN-based full-reference models, such as LPIPS, DISTS, and CVQA-FR show significantly higher correlation coefficients than both conventional full- as well as the tested no-reference models. Most overestimate the overly sharp results of SCST, with VMAF mainly failing due to spatial inconsistencies introduced by Starlight Mini. None of the tested video quality models reach sufficient accuracy so as to replace complementary subjective testing. The reference, degraded and upscaled videos, as well as the user ratings and model scores are made available with the paper at https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR as open data.