Wie genau sind Videequalitätsmodelle für diffusionsbasierte Video-Superauflösung?

Zusammenfassung

Aktuelle Video-Superauflösungsansätze (VSR) nutzen tiefe neuronale Netze, um qualitativ minderwertige Eingangsvideos zu verbessern und visuelle Details wiederherzustellen, wobei insbesondere diffusionsbasierte Methoden vielversprechende Ergebnisse zeigen. In dieser Arbeit untersuchen wir, ob bestehende Videoqualitätsmodelle zur Bewertung der Leistung dieser diffusionsbasierten VSR-Methoden verwendet werden können, indem wir Modellvorhersagen mit Ergebnissen eines subjektiven Tests vergleichen. Die Studie vergleicht sechs Hochskalierungsmethoden (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini), die sowohl auf komprimierte (AV1 und DCVC-RT) als auch auf unkomprimierte niedrigauflösende Videos angewendet wurden, unter Berücksichtigung der Wiedergabe auf einem UHD-1/4K-Bildschirm. Eine Reihe von Voll- und No-Referenz-Qualitätsmodellen wird verwendet, um ihre Anwendbarkeit auf diese neue Art der Qualitätsminderung zu bewerten, mit Fokus auf die sequenzinterne Leistung. Die Ergebnisse zeigen, dass CNN-basierte Vollreferenzmodelle wie LPIPS, DISTS und CVQA-FR signifikant höhere Korrelationskoeffizienten aufweisen als sowohl konventionelle Voll- als auch die getesteten No-Referenz-Modelle. Die meisten überschätzen die übermäßig scharfen Ergebnisse von SCST, wobei VMAF hauptsächlich aufgrund räumlicher Inkonsistenzen versagt, die durch Starlight Mini eingeführt werden. Keines der getesteten Videoqualitätsmodelle erreicht eine ausreichende Genauigkeit, um ergänzende subjektive Tests zu ersetzen. Die Referenz-, degradierten und hochskalierten Videos sowie die Benutzerbewertungen und Modellwerte werden mit dem Paper unter https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR als offene Daten bereitgestellt.

English

Recent video super-resolution (VSR) approaches use deep neural networks to enhance low-quality input videos and recover visual detail, with diffusion-based methods in particular showing promising results. In this paper, we investigate whether existing video quality models can be used to assess the performance of these diffusion-based VSR methods, by comparing model predictions with results from a subjective test. The study compares six upscaling methods (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) applied to both compressed (AV1 and DCVC-RT) and uncompressed low-resolution videos considering the play-out on a UHD-1/4K screen. A range of full- and no-reference quality models are used to assess their applicability to this new type of quality degradation, focusing on within-sequence performance. The results highlight that CNN-based full-reference models, such as LPIPS, DISTS, and CVQA-FR show significantly higher correlation coefficients than both conventional full- as well as the tested no-reference models. Most overestimate the overly sharp results of SCST, with VMAF mainly failing due to spatial inconsistencies introduced by Starlight Mini. None of the tested video quality models reach sufficient accuracy so as to replace complementary subjective testing. The reference, degraded and upscaled videos, as well as the user ratings and model scores are made available with the paper at https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR as open data.