SportsSloMo : Un nouveau benchmark et des modèles de référence pour l'interpolation d'images vidéo centrée sur l'humain
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation
August 31, 2023
Auteurs: Jiaben Chen, Huaizu Jiang
cs.AI
Résumé
L'interpolation vidéo centrée sur l'humain possède un grand potentiel pour améliorer les expériences de divertissement et trouver des applications commerciales dans l'industrie de l'analyse sportive, par exemple en synthétisant des vidéos au ralenti. Bien que plusieurs jeux de données de référence soient disponibles dans la communauté, aucun n'est dédié aux scénarios centrés sur l'humain. Pour combler cette lacune, nous introduisons SportsSloMo, un benchmark composé de plus de 130 000 clips vidéo et 1 million d'images vidéo haute résolution (≥720p) de vidéos sportives au ralenti extraites de YouTube. Nous avons réentraîné plusieurs méthodes de pointe sur notre benchmark, et les résultats montrent une diminution de leur précision par rapport à d'autres jeux de données. Cela met en évidence la difficulté de notre benchmark et suggère qu'il présente des défis importants même pour les méthodes les plus performantes, car les corps humains sont très déformables et les occlusions sont fréquentes dans les vidéos sportives. Pour améliorer la précision, nous introduisons deux termes de perte prenant en compte les connaissances a priori liées à l'humain, en ajoutant une supervision supplémentaire pour la segmentation panoptique et la détection des points clés humains, respectivement. Ces termes de perte sont indépendants du modèle et peuvent être facilement intégrés dans toute approche d'interpolation vidéo. Les résultats expérimentaux valident l'efficacité de nos termes de perte proposés, conduisant à une amélioration constante des performances sur 5 modèles existants, qui établissent des modèles de référence solides sur notre benchmark. Le jeu de données et le code sont disponibles à l'adresse suivante : https://neu-vi.github.io/SportsSlomo/.
English
Human-centric video frame interpolation has great potential for improving
people's entertainment experiences and finding commercial applications in the
sports analysis industry, e.g., synthesizing slow-motion videos. Although there
are multiple benchmark datasets available in the community, none of them is
dedicated for human-centric scenarios. To bridge this gap, we introduce
SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video
frames of high-resolution (geq720p) slow-motion sports videos crawled from
YouTube. We re-train several state-of-the-art methods on our benchmark, and the
results show a decrease in their accuracy compared to other datasets. It
highlights the difficulty of our benchmark and suggests that it poses
significant challenges even for the best-performing methods, as human bodies
are highly deformable and occlusions are frequent in sports videos. To improve
the accuracy, we introduce two loss terms considering the human-aware priors,
where we add auxiliary supervision to panoptic segmentation and human keypoints
detection, respectively. The loss terms are model agnostic and can be easily
plugged into any video frame interpolation approaches. Experimental results
validate the effectiveness of our proposed loss terms, leading to consistent
performance improvement over 5 existing models, which establish strong baseline
models on our benchmark. The dataset and code can be found at:
https://neu-vi.github.io/SportsSlomo/.