SportsSloMo: Un Nuovo Benchmark e Baseline per l'Interpolazione di Frame Video Centrata sull'Umano
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation
August 31, 2023
Autori: Jiaben Chen, Huaizu Jiang
cs.AI
Abstract
L'interpolazione di frame video centrata sull'essere umano ha un grande potenziale per migliorare le esperienze di intrattenimento delle persone e trovare applicazioni commerciali nel settore dell'analisi sportiva, ad esempio nella sintesi di video al rallentatore. Sebbene nella comunità siano disponibili diversi dataset di riferimento, nessuno di essi è dedicato a scenari incentrati sull'essere umano. Per colmare questa lacuna, introduciamo SportsSloMo, un benchmark composto da oltre 130K clip video e 1M frame di video sportivi al rallentatore ad alta risoluzione (≥720p) raccolti da YouTube. Abbiamo riaddestrato diversi metodi all'avanguardia sul nostro benchmark, e i risultati mostrano una diminuzione della loro accuratezza rispetto ad altri dataset. Ciò evidenzia la difficoltà del nostro benchmark e suggerisce che rappresenta una sfida significativa anche per i metodi più performanti, poiché i corpi umani sono altamente deformabili e le occlusioni sono frequenti nei video sportivi. Per migliorare l'accuratezza, introduciamo due termini di perdita che considerano i priori legati all'essere umano, aggiungendo una supervisione ausiliaria rispettivamente alla segmentazione panottica e al rilevamento dei punti chiave umani. I termini di perdita sono indipendenti dal modello e possono essere facilmente integrati in qualsiasi approccio di interpolazione di frame video. I risultati sperimentali convalidano l'efficacia dei nostri termini di perdita proposti, portando a un miglioramento consistente delle prestazioni su 5 modelli esistenti, che stabiliscono solidi modelli di riferimento sul nostro benchmark. Il dataset e il codice sono disponibili al seguente indirizzo: https://neu-vi.github.io/SportsSlomo/.
English
Human-centric video frame interpolation has great potential for improving
people's entertainment experiences and finding commercial applications in the
sports analysis industry, e.g., synthesizing slow-motion videos. Although there
are multiple benchmark datasets available in the community, none of them is
dedicated for human-centric scenarios. To bridge this gap, we introduce
SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video
frames of high-resolution (geq720p) slow-motion sports videos crawled from
YouTube. We re-train several state-of-the-art methods on our benchmark, and the
results show a decrease in their accuracy compared to other datasets. It
highlights the difficulty of our benchmark and suggests that it poses
significant challenges even for the best-performing methods, as human bodies
are highly deformable and occlusions are frequent in sports videos. To improve
the accuracy, we introduce two loss terms considering the human-aware priors,
where we add auxiliary supervision to panoptic segmentation and human keypoints
detection, respectively. The loss terms are model agnostic and can be easily
plugged into any video frame interpolation approaches. Experimental results
validate the effectiveness of our proposed loss terms, leading to consistent
performance improvement over 5 existing models, which establish strong baseline
models on our benchmark. The dataset and code can be found at:
https://neu-vi.github.io/SportsSlomo/.