ChatPaper.aiChatPaper

SportsSloMo: 인간 중심 비디오 프레임 보간을 위한 새로운 벤치마크 및 베이스라인

SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation

August 31, 2023
저자: Jiaben Chen, Huaizu Jiang
cs.AI

초록

인간 중심의 비디오 프레임 보간 기술은 사람들의 엔터테인먼트 경험을 향상시키고 스포츠 분석 산업에서의 상업적 응용 가능성, 예를 들어 슬로우 모션 비디오 합성 등에 큰 잠재력을 가지고 있습니다. 커뮤니티에는 여러 벤치마크 데이터셋이 존재하지만, 인간 중심 시나리오에 특화된 데이터셋은 없습니다. 이러한 격차를 해소하기 위해, 우리는 YouTube에서 크롤링한 고해상도(geq720p) 슬로우 모션 스포츠 비디오 클립 130,000개 이상과 비디오 프레임 100만 개로 구성된 벤치마크인 SportsSloMo를 소개합니다. 우리는 이 벤치마크에서 여러 최신 방법들을 재학습시켰으며, 그 결과 다른 데이터셋에 비해 정확도가 감소함을 확인했습니다. 이는 우리 벤치마크의 난이도를 강조하며, 인간 신체가 매우 변형 가능하고 스포츠 비디오에서 가림 현상이 빈번하게 발생하기 때문에 최고 성능의 방법들조차도 상당한 도전에 직면함을 시사합니다. 정확도를 향상시키기 위해, 우리는 인간 인식 사전 지식을 고려한 두 가지 손실 항목을 도입했습니다. 여기서는 팬옵틱 분할과 인간 키포인트 검출에 각각 보조 감독을 추가했습니다. 이 손실 항목들은 모델에 독립적이며, 어떤 비디오 프레임 보간 접근법에도 쉽게 적용할 수 있습니다. 실험 결과는 우리가 제안한 손실 항목의 효과를 검증하며, 5개의 기존 모델에 걸쳐 일관된 성능 향상을 이끌어냈습니다. 이를 통해 우리 벤치마크에 대한 강력한 베이스라인 모델을 확립했습니다. 데이터셋과 코드는 https://neu-vi.github.io/SportsSlomo/에서 확인할 수 있습니다.
English
Human-centric video frame interpolation has great potential for improving people's entertainment experiences and finding commercial applications in the sports analysis industry, e.g., synthesizing slow-motion videos. Although there are multiple benchmark datasets available in the community, none of them is dedicated for human-centric scenarios. To bridge this gap, we introduce SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video frames of high-resolution (geq720p) slow-motion sports videos crawled from YouTube. We re-train several state-of-the-art methods on our benchmark, and the results show a decrease in their accuracy compared to other datasets. It highlights the difficulty of our benchmark and suggests that it poses significant challenges even for the best-performing methods, as human bodies are highly deformable and occlusions are frequent in sports videos. To improve the accuracy, we introduce two loss terms considering the human-aware priors, where we add auxiliary supervision to panoptic segmentation and human keypoints detection, respectively. The loss terms are model agnostic and can be easily plugged into any video frame interpolation approaches. Experimental results validate the effectiveness of our proposed loss terms, leading to consistent performance improvement over 5 existing models, which establish strong baseline models on our benchmark. The dataset and code can be found at: https://neu-vi.github.io/SportsSlomo/.
PDF90December 15, 2024