SportsSloMo: Un Nuevo Punto de Referencia y Líneas Base para la Interpolación de Fotogramas en Vídeo Centrada en el Ser Humano
SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation
August 31, 2023
Autores: Jiaben Chen, Huaizu Jiang
cs.AI
Resumen
La interpolación de fotogramas de video centrada en el ser humano tiene un gran potencial para mejorar las experiencias de entretenimiento de las personas y encontrar aplicaciones comerciales en la industria de análisis deportivo, por ejemplo, en la síntesis de videos en cámara lenta. Aunque existen múltiples conjuntos de datos de referencia disponibles en la comunidad, ninguno está dedicado específicamente a escenarios centrados en humanos. Para cerrar esta brecha, presentamos SportsSloMo, un conjunto de referencia que consta de más de 130K clips de video y 1M fotogramas de videos deportivos en cámara lenta de alta resolución (≥720p) extraídos de YouTube. Reentrenamos varios métodos de última generación en nuestro conjunto de datos, y los resultados muestran una disminución en su precisión en comparación con otros conjuntos de datos. Esto resalta la dificultad de nuestro conjunto de datos y sugiere que plantea desafíos significativos incluso para los métodos de mejor rendimiento, ya que los cuerpos humanos son altamente deformables y las oclusiones son frecuentes en los videos deportivos. Para mejorar la precisión, introducimos dos términos de pérdida que consideran conocimientos previos centrados en humanos, donde agregamos supervisión auxiliar a la segmentación panóptica y la detección de puntos clave humanos, respectivamente. Los términos de pérdida son independientes del modelo y pueden integrarse fácilmente en cualquier enfoque de interpolación de fotogramas de video. Los resultados experimentales validan la efectividad de nuestros términos de pérdida propuestos, lo que conduce a una mejora consistente en el rendimiento en más de 5 modelos existentes, estableciendo así modelos de referencia sólidos en nuestro conjunto de datos. El conjunto de datos y el código se pueden encontrar en: https://neu-vi.github.io/SportsSlomo/.
English
Human-centric video frame interpolation has great potential for improving
people's entertainment experiences and finding commercial applications in the
sports analysis industry, e.g., synthesizing slow-motion videos. Although there
are multiple benchmark datasets available in the community, none of them is
dedicated for human-centric scenarios. To bridge this gap, we introduce
SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video
frames of high-resolution (geq720p) slow-motion sports videos crawled from
YouTube. We re-train several state-of-the-art methods on our benchmark, and the
results show a decrease in their accuracy compared to other datasets. It
highlights the difficulty of our benchmark and suggests that it poses
significant challenges even for the best-performing methods, as human bodies
are highly deformable and occlusions are frequent in sports videos. To improve
the accuracy, we introduce two loss terms considering the human-aware priors,
where we add auxiliary supervision to panoptic segmentation and human keypoints
detection, respectively. The loss terms are model agnostic and can be easily
plugged into any video frame interpolation approaches. Experimental results
validate the effectiveness of our proposed loss terms, leading to consistent
performance improvement over 5 existing models, which establish strong baseline
models on our benchmark. The dataset and code can be found at:
https://neu-vi.github.io/SportsSlomo/.