SportsSloMo: Ein neuer Benchmark und Baselines für menschenzentrierte Video-Frame-Interpolation
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation
August 31, 2023
Autoren: Jiaben Chen, Huaizu Jiang
cs.AI
Zusammenfassung
Die menschzentrierte Videointerpolation hat großes Potenzial, die Unterhaltungserlebnisse der Menschen zu verbessern und kommerzielle Anwendungen in der Sportanalysebranche zu finden, z. B. bei der Synthese von Zeitlupenvideos. Obwohl in der Community mehrere Benchmark-Datensätze verfügbar sind, ist keiner davon speziell für menschzentrierte Szenarien konzipiert. Um diese Lücke zu schließen, stellen wir SportsSloMo vor, einen Benchmark, der aus mehr als 130.000 Videoclips und 1 Million Videobildern in hoher Auflösung (≥720p) von Zeitlupensportvideos besteht, die von YouTube gesammelt wurden. Wir trainieren mehrere state-of-the-art Methoden auf unserem Benchmark neu, und die Ergebnisse zeigen eine Abnahme ihrer Genauigkeit im Vergleich zu anderen Datensätzen. Dies unterstreicht die Schwierigkeit unseres Benchmarks und deutet darauf hin, dass er selbst für die leistungsstärksten Methoden erhebliche Herausforderungen darstellt, da menschliche Körper stark verformbar sind und Verdeckungen in Sportvideos häufig vorkommen. Um die Genauigkeit zu verbessern, führen wir zwei Verlustterme ein, die menschzentrierte Prioritäten berücksichtigen, wobei wir zusätzliche Überwachung für die panoptische Segmentierung und die Erkennung menschlicher Schlüsselpunkte hinzufügen. Die Verlustterme sind modellagnostisch und können leicht in beliebige Videointerpolationsansätze integriert werden. Experimentelle Ergebnisse bestätigen die Wirksamkeit unserer vorgeschlagenen Verlustterme, was zu einer konsistenten Leistungssteigerung bei 5 bestehenden Modellen führt, die starke Baseline-Modelle auf unserem Benchmark etablieren. Der Datensatz und der Code sind verfügbar unter: https://neu-vi.github.io/SportsSlomo/.
English
Human-centric video frame interpolation has great potential for improving
people's entertainment experiences and finding commercial applications in the
sports analysis industry, e.g., synthesizing slow-motion videos. Although there
are multiple benchmark datasets available in the community, none of them is
dedicated for human-centric scenarios. To bridge this gap, we introduce
SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video
frames of high-resolution (geq720p) slow-motion sports videos crawled from
YouTube. We re-train several state-of-the-art methods on our benchmark, and the
results show a decrease in their accuracy compared to other datasets. It
highlights the difficulty of our benchmark and suggests that it poses
significant challenges even for the best-performing methods, as human bodies
are highly deformable and occlusions are frequent in sports videos. To improve
the accuracy, we introduce two loss terms considering the human-aware priors,
where we add auxiliary supervision to panoptic segmentation and human keypoints
detection, respectively. The loss terms are model agnostic and can be easily
plugged into any video frame interpolation approaches. Experimental results
validate the effectiveness of our proposed loss terms, leading to consistent
performance improvement over 5 existing models, which establish strong baseline
models on our benchmark. The dataset and code can be found at:
https://neu-vi.github.io/SportsSlomo/.