SportsSloMo: Новый эталон и базовые методы интерполяции кадров в видео с фокусом на человеке
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation
August 31, 2023
Авторы: Jiaben Chen, Huaizu Jiang
cs.AI
Аннотация
Человеко-ориентированная интерполяция видеокадров обладает большим потенциалом для улучшения развлекательного опыта людей и находит коммерческое применение в индустрии спортивного анализа, например, при создании замедленных видео. Хотя в сообществе доступны несколько эталонных наборов данных, ни один из них не предназначен специально для человеко-ориентированных сценариев. Чтобы устранить этот пробел, мы представляем SportsSloMo — эталонный набор данных, состоящий из более чем 130 тысяч видеоклипов и 1 миллиона видеокадров высокого разрешения (≥720p) замедленных спортивных видео, собранных с YouTube. Мы повторно обучаем несколько современных методов на нашем наборе данных, и результаты показывают снижение их точности по сравнению с другими наборами данных. Это подчеркивает сложность нашего набора данных и указывает на то, что он представляет значительные вызовы даже для лучших методов, поскольку человеческое тело обладает высокой деформируемостью, а окклюзии часто встречаются в спортивных видео. Для повышения точности мы вводим два дополнительных слагаемых функции потерь, учитывающих априорные знания о человеке, где мы добавляем вспомогательное обучение для панорамной сегментации и обнаружения ключевых точек человека соответственно. Эти слагаемые являются модельно-независимыми и могут быть легко интегрированы в любые подходы к интерполяции видеокадров. Экспериментальные результаты подтверждают эффективность предложенных слагаемых, приводя к последовательному улучшению производительности в 5 существующих моделях, которые устанавливают сильные базовые модели на нашем наборе данных. Набор данных и код доступны по адресу: https://neu-vi.github.io/SportsSlomo/.
English
Human-centric video frame interpolation has great potential for improving
people's entertainment experiences and finding commercial applications in the
sports analysis industry, e.g., synthesizing slow-motion videos. Although there
are multiple benchmark datasets available in the community, none of them is
dedicated for human-centric scenarios. To bridge this gap, we introduce
SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video
frames of high-resolution (geq720p) slow-motion sports videos crawled from
YouTube. We re-train several state-of-the-art methods on our benchmark, and the
results show a decrease in their accuracy compared to other datasets. It
highlights the difficulty of our benchmark and suggests that it poses
significant challenges even for the best-performing methods, as human bodies
are highly deformable and occlusions are frequent in sports videos. To improve
the accuracy, we introduce two loss terms considering the human-aware priors,
where we add auxiliary supervision to panoptic segmentation and human keypoints
detection, respectively. The loss terms are model agnostic and can be easily
plugged into any video frame interpolation approaches. Experimental results
validate the effectiveness of our proposed loss terms, leading to consistent
performance improvement over 5 existing models, which establish strong baseline
models on our benchmark. The dataset and code can be found at:
https://neu-vi.github.io/SportsSlomo/.