ChatPaper.aiChatPaper

拡散ベースのビデオ超解像におけるビデオ品質モデルの精度はどの程度か?

How Accurate are Video Quality Models for Diffusion-Based Video Super-Resolution?

May 25, 2026
著者: Benjamin Herb, Steve Göring, Alexander Raake, Rakesh Rao Ramachandra Rao
cs.AI

要旨

近年のビデオ超解像(VSR)手法では、深層ニューラルネットワークを用いて低品質の入力ビデオを向上させ、視覚的詳細を回復しており、特に拡散ベース手法が有望な結果を示している。本論文では、既存のビデオ品質モデルがこれらの拡散ベースVSR手法の性能評価に利用可能かどうかを、モデル予測と主観評価試験の結果を比較することで調査する。研究では、UHD-1/4K画面での再生を考慮し、圧縮(AV1およびDCVC-RT)および非圧縮の低解像度ビデオに適用された6種類のアップスケーリング手法(Lanczos、Rhea、SCST、DOVE、SeedVR2、Starlight Mini)を比較する。また、シーケンス内の性能に焦点を当て、この新たな種類の品質劣化に対する適用性を評価するため、複数のフル参照およびノー参照品質モデルを用いる。結果から、LPIPS、DISTS、CVQA-FRなどのCNNベースのフル参照モデルは、従来のフル参照モデルおよびテストされたノー参照モデルの両方よりも有意に高い相関係数を示すことが明らかになった。ほとんどのモデルはSCSTの過度にシャープな結果を過大評価し、VMAFは主にStarlight Miniによって導入された空間的不整合のために失敗している。テストしたビデオ品質モデルのいずれも、補完的な主観評価試験を代替できるほどの十分な精度には達していない。参照動画、劣化動画、アップスケーリング動画、ならびにユーザ評価とモデルスコアは、本論文とともにhttps://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSRでオープンデータとして公開されている。
English
Recent video super-resolution (VSR) approaches use deep neural networks to enhance low-quality input videos and recover visual detail, with diffusion-based methods in particular showing promising results. In this paper, we investigate whether existing video quality models can be used to assess the performance of these diffusion-based VSR methods, by comparing model predictions with results from a subjective test. The study compares six upscaling methods (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) applied to both compressed (AV1 and DCVC-RT) and uncompressed low-resolution videos considering the play-out on a UHD-1/4K screen. A range of full- and no-reference quality models are used to assess their applicability to this new type of quality degradation, focusing on within-sequence performance. The results highlight that CNN-based full-reference models, such as LPIPS, DISTS, and CVQA-FR show significantly higher correlation coefficients than both conventional full- as well as the tested no-reference models. Most overestimate the overly sharp results of SCST, with VMAF mainly failing due to spatial inconsistencies introduced by Starlight Mini. None of the tested video quality models reach sufficient accuracy so as to replace complementary subjective testing. The reference, degraded and upscaled videos, as well as the user ratings and model scores are made available with the paper at https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR as open data.