Dans quelle mesure les modèles de qualité vidéo sont-ils précis pour la super-résolution vidéo basée sur la diffusion ?

Résumé

Les approches récentes de super-résolution vidéo (VSR) utilisent des réseaux de neurones profonds pour améliorer les vidéos d'entrée de faible qualité et récupérer les détails visuels, les méthodes basées sur la diffusion montrant en particulier des résultats prometteurs. Dans cet article, nous étudions si les modèles de qualité vidéo existants peuvent être utilisés pour évaluer les performances de ces méthodes VSR basées sur la diffusion, en comparant les prédictions des modèles avec les résultats d'un test subjectif. L'étude compare six méthodes de sur-échantillonnage (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) appliquées à des vidéos basse résolution compressées (AV1 et DCVC-RT) et non compressées, en considérant la lecture sur un écran UHD-1/4K. Une gamme de modèles de qualité à référence complète et sans référence est utilisée pour évaluer leur applicabilité à ce nouveau type de dégradation de qualité, en se concentrant sur les performances intra-séquence. Les résultats soulignent que les modèles à référence complète basés sur CNN, tels que LPIPS, DISTS et CVQA-FR, présentent des coefficients de corrélation significativement plus élevés que les modèles à référence complète conventionnels ainsi que les modèles sans référence testés. La plupart surestiment les résultats excessivement nets de SCST, VMAF échouant principalement en raison des incohérences spatiales introduites par Starlight Mini. Aucun des modèles de qualité vidéo testés n'atteint une précision suffisante pour remplacer les tests subjectifs complémentaires. Les vidéos de référence, dégradées et sur-échantillonnées, ainsi que les évaluations des utilisateurs et les scores des modèles, sont mises à disposition avec l'article à l'adresse https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR en tant que données ouvertes.

English

Recent video super-resolution (VSR) approaches use deep neural networks to enhance low-quality input videos and recover visual detail, with diffusion-based methods in particular showing promising results. In this paper, we investigate whether existing video quality models can be used to assess the performance of these diffusion-based VSR methods, by comparing model predictions with results from a subjective test. The study compares six upscaling methods (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) applied to both compressed (AV1 and DCVC-RT) and uncompressed low-resolution videos considering the play-out on a UHD-1/4K screen. A range of full- and no-reference quality models are used to assess their applicability to this new type of quality degradation, focusing on within-sequence performance. The results highlight that CNN-based full-reference models, such as LPIPS, DISTS, and CVQA-FR show significantly higher correlation coefficients than both conventional full- as well as the tested no-reference models. Most overestimate the overly sharp results of SCST, with VMAF mainly failing due to spatial inconsistencies introduced by Starlight Mini. None of the tested video quality models reach sufficient accuracy so as to replace complementary subjective testing. The reference, degraded and upscaled videos, as well as the user ratings and model scores are made available with the paper at https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR as open data.