¿Qué tan precisos son los modelos de calidad de video para la superresolución de video basada en difusión?

Resumen

Enfoques recientes de superresolución de video (VSR) utilizan redes neuronales profundas para mejorar la calidad de videos de entrada con baja resolución y recuperar detalles visuales, destacando particularmente los métodos basados en difusión por sus resultados prometedores. En este artículo, investigamos si los modelos existentes de calidad de video pueden emplearse para evaluar el rendimiento de estos métodos de VSR basados en difusión, comparando las predicciones de los modelos con los resultados de una prueba subjetiva. El estudio compara seis métodos de escalado (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) aplicados tanto a videos de baja resolución comprimidos (con AV1 y DCVC-RT) como sin comprimir, considerando la reproducción en una pantalla UHD-1/4K. Se utiliza un conjunto de modelos de calidad con y sin referencia para evaluar su aplicabilidad a este nuevo tipo de degradación, centrándose en el rendimiento dentro de la secuencia. Los resultados destacan que los modelos de referencia completa basados en CNN, como LPIPS, DISTS y CVQA-FR, presentan coeficientes de correlación significativamente más altos que tanto los modelos convencionales de referencia completa como los modelos sin referencia evaluados. La mayoría sobreestima los resultados excesivamente nítidos de SCST, y VMAF falla principalmente debido a las inconsistencias espaciales introducidas por Starlight Mini. Ninguno de los modelos de calidad de video evaluados alcanza una precisión suficiente como para reemplazar las pruebas subjetivas complementarias. Los videos de referencia, degradados y escalados, así como las valoraciones de los usuarios y las puntuaciones de los modelos, se ponen a disposición junto con el artículo en https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR como datos abiertos.

English

Recent video super-resolution (VSR) approaches use deep neural networks to enhance low-quality input videos and recover visual detail, with diffusion-based methods in particular showing promising results. In this paper, we investigate whether existing video quality models can be used to assess the performance of these diffusion-based VSR methods, by comparing model predictions with results from a subjective test. The study compares six upscaling methods (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) applied to both compressed (AV1 and DCVC-RT) and uncompressed low-resolution videos considering the play-out on a UHD-1/4K screen. A range of full- and no-reference quality models are used to assess their applicability to this new type of quality degradation, focusing on within-sequence performance. The results highlight that CNN-based full-reference models, such as LPIPS, DISTS, and CVQA-FR show significantly higher correlation coefficients than both conventional full- as well as the tested no-reference models. Most overestimate the overly sharp results of SCST, with VMAF mainly failing due to spatial inconsistencies introduced by Starlight Mini. None of the tested video quality models reach sufficient accuracy so as to replace complementary subjective testing. The reference, degraded and upscaled videos, as well as the user ratings and model scores are made available with the paper at https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR as open data.