SportsSloMo: Um Novo Benchmark e Linhas de Base para Interpolação de Quadros em Vídeos Centrados no Ser Humano
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation
August 31, 2023
Autores: Jiaben Chen, Huaizu Jiang
cs.AI
Resumo
A interpolação de quadros de vídeo centrada no ser humano tem um grande potencial para melhorar as experiências de entretenimento das pessoas e encontrar aplicações comerciais na indústria de análise esportiva, por exemplo, na síntese de vídeos em câmera lenta. Embora existam vários conjuntos de dados de referência disponíveis na comunidade, nenhum deles é dedicado a cenários centrados no ser humano. Para preencher essa lacuna, apresentamos o SportsSloMo, um benchmark composto por mais de 130 mil clipes de vídeo e 1 milhão de quadros de vídeo de alta resolução (≥720p) de vídeos esportivos em câmera lenta coletados do YouTube. Re-treinamos vários métodos state-of-the-art em nosso benchmark, e os resultados mostram uma diminuição em sua precisão em comparação com outros conjuntos de dados. Isso destaca a dificuldade do nosso benchmark e sugere que ele apresenta desafios significativos mesmo para os métodos de melhor desempenho, já que os corpos humanos são altamente deformáveis e as oclusões são frequentes em vídeos esportivos. Para melhorar a precisão, introduzimos dois termos de perda considerando os priors conscientes do ser humano, onde adicionamos supervisão auxiliar à segmentação panóptica e à detecção de pontos-chave humanos, respectivamente. Os termos de perda são agnósticos ao modelo e podem ser facilmente integrados em qualquer abordagem de interpolação de quadros de vídeo. Os resultados experimentais validam a eficácia dos nossos termos de perda propostos, levando a uma melhoria consistente de desempenho em 5 modelos existentes, que estabelecem modelos de linha de base fortes em nosso benchmark. O conjunto de dados e o código podem ser encontrados em: https://neu-vi.github.io/SportsSlomo/.
English
Human-centric video frame interpolation has great potential for improving
people's entertainment experiences and finding commercial applications in the
sports analysis industry, e.g., synthesizing slow-motion videos. Although there
are multiple benchmark datasets available in the community, none of them is
dedicated for human-centric scenarios. To bridge this gap, we introduce
SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video
frames of high-resolution (geq720p) slow-motion sports videos crawled from
YouTube. We re-train several state-of-the-art methods on our benchmark, and the
results show a decrease in their accuracy compared to other datasets. It
highlights the difficulty of our benchmark and suggests that it poses
significant challenges even for the best-performing methods, as human bodies
are highly deformable and occlusions are frequent in sports videos. To improve
the accuracy, we introduce two loss terms considering the human-aware priors,
where we add auxiliary supervision to panoptic segmentation and human keypoints
detection, respectively. The loss terms are model agnostic and can be easily
plugged into any video frame interpolation approaches. Experimental results
validate the effectiveness of our proposed loss terms, leading to consistent
performance improvement over 5 existing models, which establish strong baseline
models on our benchmark. The dataset and code can be found at:
https://neu-vi.github.io/SportsSlomo/.