확산 기반 비디오 초해상도를 위한 비디오 품질 모델은 얼마나 정확한가?
How Accurate are Video Quality Models for Diffusion-Based Video Super-Resolution?
May 25, 2026
저자: Benjamin Herb, Steve Göring, Alexander Raake, Rakesh Rao Ramachandra Rao
cs.AI
초록
최근 비디오 초해상도(VSR) 접근법은 심층 신경망을 사용하여 저품질 입력 비디오를 향상시키고 시각적 디테일을 복원하며, 특히 확산 기반 방법이 유망한 결과를 보여주고 있다. 본 논문에서는 기존 비디오 품질 모델이 이러한 확산 기반 VSR 방법의 성능을 평가하는 데 사용될 수 있는지 조사하기 위해, 모델 예측과 주관적 평가 결과를 비교한다. 연구는 UHD-1/4K 화면에서의 재생을 고려하여 압축(AV1 및 DCVC-RT) 및 비압축 저해상도 비디오에 적용된 6가지 업스케일링 방법(Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini)을 비교한다. 다양한 전참조 및 무참조 품질 모델이 이러한 새로운 유형의 품질 저하에 대한 적용 가능성을 평가하는 데 사용되며, 특히 시퀀스 내 성능에 초점을 맞춘다. 결과는 LPIPS, DISTS 및 CVQA-FR과 같은 CNN 기반 전참조 모델이 기존 전참조 모델 및 테스트된 무참조 모델보다 유의미하게 높은 상관 계수를 보여줌을 강조한다. 대부분의 모델은 SCST의 지나치게 선명한 결과를 과대평가하며, VMAF는 주로 Starlight Mini에 의해 도입된 공간적 불일치로 인해 실패한다. 테스트된 비디오 품질 모델 중 어느 것도 보완적 주관적 평가를 대체할 만큼 충분한 정확도에 도달하지 못한다. 참조, 열화 및 업스케일링된 비디오와 사용자 평점 및 모델 점수는 논문과 함께 https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR에서 공개 데이터로 제공된다.
English
Recent video super-resolution (VSR) approaches use deep neural networks to enhance low-quality input videos and recover visual detail, with diffusion-based methods in particular showing promising results. In this paper, we investigate whether existing video quality models can be used to assess the performance of these diffusion-based VSR methods, by comparing model predictions with results from a subjective test. The study compares six upscaling methods (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) applied to both compressed (AV1 and DCVC-RT) and uncompressed low-resolution videos considering the play-out on a UHD-1/4K screen. A range of full- and no-reference quality models are used to assess their applicability to this new type of quality degradation, focusing on within-sequence performance. The results highlight that CNN-based full-reference models, such as LPIPS, DISTS, and CVQA-FR show significantly higher correlation coefficients than both conventional full- as well as the tested no-reference models. Most overestimate the overly sharp results of SCST, with VMAF mainly failing due to spatial inconsistencies introduced by Starlight Mini. None of the tested video quality models reach sufficient accuracy so as to replace complementary subjective testing. The reference, degraded and upscaled videos, as well as the user ratings and model scores are made available with the paper at https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR as open data.