SportsSloMo: Un Nuevo Punto de Referencia y Líneas Base para la Interpolación de Fotogramas en Vídeo Centrada en el Ser Humano

Resumen

La interpolación de fotogramas de video centrada en el ser humano tiene un gran potencial para mejorar las experiencias de entretenimiento de las personas y encontrar aplicaciones comerciales en la industria de análisis deportivo, por ejemplo, en la síntesis de videos en cámara lenta. Aunque existen múltiples conjuntos de datos de referencia disponibles en la comunidad, ninguno está dedicado específicamente a escenarios centrados en humanos. Para cerrar esta brecha, presentamos SportsSloMo, un conjunto de referencia que consta de más de 130K clips de video y 1M fotogramas de videos deportivos en cámara lenta de alta resolución (≥720p) extraídos de YouTube. Reentrenamos varios métodos de última generación en nuestro conjunto de datos, y los resultados muestran una disminución en su precisión en comparación con otros conjuntos de datos. Esto resalta la dificultad de nuestro conjunto de datos y sugiere que plantea desafíos significativos incluso para los métodos de mejor rendimiento, ya que los cuerpos humanos son altamente deformables y las oclusiones son frecuentes en los videos deportivos. Para mejorar la precisión, introducimos dos términos de pérdida que consideran conocimientos previos centrados en humanos, donde agregamos supervisión auxiliar a la segmentación panóptica y la detección de puntos clave humanos, respectivamente. Los términos de pérdida son independientes del modelo y pueden integrarse fácilmente en cualquier enfoque de interpolación de fotogramas de video. Los resultados experimentales validan la efectividad de nuestros términos de pérdida propuestos, lo que conduce a una mejora consistente en el rendimiento en más de 5 modelos existentes, estableciendo así modelos de referencia sólidos en nuestro conjunto de datos. El conjunto de datos y el código se pueden encontrar en: https://neu-vi.github.io/SportsSlomo/.

English

Human-centric video frame interpolation has great potential for improving people's entertainment experiences and finding commercial applications in the sports analysis industry, e.g., synthesizing slow-motion videos. Although there are multiple benchmark datasets available in the community, none of them is dedicated for human-centric scenarios. To bridge this gap, we introduce SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video frames of high-resolution (geq720p) slow-motion sports videos crawled from YouTube. We re-train several state-of-the-art methods on our benchmark, and the results show a decrease in their accuracy compared to other datasets. It highlights the difficulty of our benchmark and suggests that it poses significant challenges even for the best-performing methods, as human bodies are highly deformable and occlusions are frequent in sports videos. To improve the accuracy, we introduce two loss terms considering the human-aware priors, where we add auxiliary supervision to panoptic segmentation and human keypoints detection, respectively. The loss terms are model agnostic and can be easily plugged into any video frame interpolation approaches. Experimental results validate the effectiveness of our proposed loss terms, leading to consistent performance improvement over 5 existing models, which establish strong baseline models on our benchmark. The dataset and code can be found at: https://neu-vi.github.io/SportsSlomo/.

SportsSloMo: Un Nuevo Punto de Referencia y Líneas Base para la Interpolación de Fotogramas en Vídeo Centrada en el Ser Humano

SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation

Resumen

Support