Насколько точны модели качества видео для суперразрешения видео на основе диффузии?

Аннотация

Современные подходы к сверхвысокому разрешению видео (VSR) используют глубокие нейронные сети для улучшения качества входных видеопотоков с низким разрешением и восстановления визуальных деталей. Методы, основанные на диффузии, в частности, демонстрируют многообещающие результаты. В данной работе мы исследуем, можно ли использовать существующие модели качества видео для оценки производительности этих диффузионных методов VSR, сравнивая прогнозы моделей с результатами субъективного тестирования. В исследовании сравниваются шесть методов повышения разрешения (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini), применённых как к сжатым (AV1 и DCVC-RT), так и к несжатым видеороликам низкого разрешения, с учётом воспроизведения на экране UHD-1/4K. Для оценки применимости к данному новому типу ухудшения качества используется ряд полно- и безэталонных моделей качества с акцентом на производительность внутри последовательности. Результаты показывают, что полные эталонные модели на основе свёрточных нейронных сетей, такие как LPIPS, DISTS и CVQA-FR, демонстрируют значительно более высокие коэффициенты корреляции по сравнению как с традиционными полными эталонными, так и с протестированными безэталонными моделями. Большинство моделей переоценивают чрезмерно резкие результаты SCST, причём VMAF в основном даёт сбои из-за пространственных несоответствий, вносимых Starlight Mini. Ни одна из протестированных моделей качества видео не достигает достаточной точности, чтобы заменить дополнительное субъективное тестирование. Эталонные, ухудшенные и увеличенные видеоролики, а также пользовательские оценки и значения моделей доступны вместе со статьёй в виде открытых данных по адресу https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR.

English

Recent video super-resolution (VSR) approaches use deep neural networks to enhance low-quality input videos and recover visual detail, with diffusion-based methods in particular showing promising results. In this paper, we investigate whether existing video quality models can be used to assess the performance of these diffusion-based VSR methods, by comparing model predictions with results from a subjective test. The study compares six upscaling methods (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) applied to both compressed (AV1 and DCVC-RT) and uncompressed low-resolution videos considering the play-out on a UHD-1/4K screen. A range of full- and no-reference quality models are used to assess their applicability to this new type of quality degradation, focusing on within-sequence performance. The results highlight that CNN-based full-reference models, such as LPIPS, DISTS, and CVQA-FR show significantly higher correlation coefficients than both conventional full- as well as the tested no-reference models. Most overestimate the overly sharp results of SCST, with VMAF mainly failing due to spatial inconsistencies introduced by Starlight Mini. None of the tested video quality models reach sufficient accuracy so as to replace complementary subjective testing. The reference, degraded and upscaled videos, as well as the user ratings and model scores are made available with the paper at https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR as open data.