SportsSloMo: Een Nieuwe Benchmark en Basisimplementaties voor Mensgerichte Videoframe-interpolatie
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation
August 31, 2023
Auteurs: Jiaben Chen, Huaizu Jiang
cs.AI
Samenvatting
Mensgerichte video frame-interpolatie heeft een groot potentieel om de entertainmentervaring van mensen te verbeteren en commerciële toepassingen te vinden in de sportanalyse-industrie, bijvoorbeeld door het synthetiseren van slow-motion video's. Hoewel er meerdere benchmarkdatasets beschikbaar zijn in de gemeenschap, is geen daarvan specifiek gewijd aan mensgerichte scenario's. Om deze kloof te overbruggen, introduceren we SportsSloMo, een benchmark die bestaat uit meer dan 130K videoclips en 1M videoframes van hoogwaardige (≥720p) slow-motion sportvideo's die van YouTube zijn verzameld. We trainen verschillende state-of-the-art methoden opnieuw op onze benchmark, en de resultaten tonen een afname in hun nauwkeurigheid in vergelijking met andere datasets. Dit benadrukt de moeilijkheidsgraad van onze benchmark en suggereert dat het aanzienlijke uitdagingen biedt, zelfs voor de best presterende methoden, aangezien menselijke lichamen zeer vervormbaar zijn en occlusies frequent voorkomen in sportvideo's. Om de nauwkeurigheid te verbeteren, introduceren we twee verliestermen die rekening houden met mensgerichte aannames, waarbij we aanvullende supervisie toevoegen aan panoptische segmentatie en detectie van menselijke sleutelpunten, respectievelijk. De verliestermen zijn modelagnostisch en kunnen eenvoudig worden geïntegreerd in elke benadering van video frame-interpolatie. Experimentele resultaten valideren de effectiviteit van onze voorgestelde verliestermen, wat leidt tot consistente prestatieverbeteringen bij 5 bestaande modellen, die sterke basismodellen op onze benchmark vormen. De dataset en code zijn te vinden op: https://neu-vi.github.io/SportsSlomo/.
English
Human-centric video frame interpolation has great potential for improving
people's entertainment experiences and finding commercial applications in the
sports analysis industry, e.g., synthesizing slow-motion videos. Although there
are multiple benchmark datasets available in the community, none of them is
dedicated for human-centric scenarios. To bridge this gap, we introduce
SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video
frames of high-resolution (geq720p) slow-motion sports videos crawled from
YouTube. We re-train several state-of-the-art methods on our benchmark, and the
results show a decrease in their accuracy compared to other datasets. It
highlights the difficulty of our benchmark and suggests that it poses
significant challenges even for the best-performing methods, as human bodies
are highly deformable and occlusions are frequent in sports videos. To improve
the accuracy, we introduce two loss terms considering the human-aware priors,
where we add auxiliary supervision to panoptic segmentation and human keypoints
detection, respectively. The loss terms are model agnostic and can be easily
plugged into any video frame interpolation approaches. Experimental results
validate the effectiveness of our proposed loss terms, leading to consistent
performance improvement over 5 existing models, which establish strong baseline
models on our benchmark. The dataset and code can be found at:
https://neu-vi.github.io/SportsSlomo/.