Hoe nauwkeurig zijn videokwaliteitsmodellen voor diffusiegebaseerde video-superresolutie?

Samenvatting

Recente video super-resolutie (VSR) benaderingen maken gebruik van diepe neurale netwerken om laagwaardige invoervideo's te verbeteren en visuele details te herstellen, waarbij met name diffusiegebaseerde methoden veelbelovende resultaten laten zien. In dit artikel onderzoeken we of bestaande videokwaliteitsmodellen kunnen worden gebruikt om de prestaties van deze diffusiegebaseerde VSR-methoden te beoordelen, door modelvoorspellingen te vergelijken met resultaten van een subjectieve test. De studie vergelijkt zes opschalingsmethoden (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) toegepast op zowel gecomprimeerde (AV1 en DCVC-RT) als ongecomprimeerde laagresolutievideo's, rekening houdend met de weergave op een UHD-1/4K-scherm. Een reeks full-reference en no-reference kwaliteitsmodellen wordt gebruikt om hun toepasbaarheid op dit nieuwe type kwaliteitsverlies te beoordelen, met de nadruk op prestaties binnen sequenties. De resultaten tonen aan dat CNN-gebaseerde full-reference modellen, zoals LPIPS, DISTS en CVQA-FR, significant hogere correlatiecoëfficiënten behalen dan zowel conventionele full-reference als de geteste no-reference modellen. De meeste modellen overschatten de overdreven scherpe resultaten van SCST, waarbij VMAF vooral faalt door ruimtelijke inconsistenties die door Starlight Mini worden geïntroduceerd. Geen van de geteste videokwaliteitsmodellen bereikt voldoende nauwkeurigheid om complementair subjectief testen te vervangen. De referentie-, gedegradeerde en opgeschaalde video's, evenals de gebruikersbeoordelingen en modelscores, worden bij het artikel beschikbaar gesteld als open data op https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR.

English

Recent video super-resolution (VSR) approaches use deep neural networks to enhance low-quality input videos and recover visual detail, with diffusion-based methods in particular showing promising results. In this paper, we investigate whether existing video quality models can be used to assess the performance of these diffusion-based VSR methods, by comparing model predictions with results from a subjective test. The study compares six upscaling methods (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) applied to both compressed (AV1 and DCVC-RT) and uncompressed low-resolution videos considering the play-out on a UHD-1/4K screen. A range of full- and no-reference quality models are used to assess their applicability to this new type of quality degradation, focusing on within-sequence performance. The results highlight that CNN-based full-reference models, such as LPIPS, DISTS, and CVQA-FR show significantly higher correlation coefficients than both conventional full- as well as the tested no-reference models. Most overestimate the overly sharp results of SCST, with VMAF mainly failing due to spatial inconsistencies introduced by Starlight Mini. None of the tested video quality models reach sufficient accuracy so as to replace complementary subjective testing. The reference, degraded and upscaled videos, as well as the user ratings and model scores are made available with the paper at https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR as open data.