ChatPaper.aiChatPaper

세카이: 세계 탐구를 위한 비디오 데이터셋

Sekai: A Video Dataset towards World Exploration

June 18, 2025
저자: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
cs.AI

초록

비디오 생성 기술은 상호작용적인 세계 탐험의 기반이 될 잠재력을 보이며 눈부신 발전을 이루어 왔다. 그러나 기존의 비디오 생성 데이터셋은 제한된 장소, 짧은 지속 시간, 정적인 장면, 그리고 탐험 및 세계에 대한 주석의 부족과 같은 몇 가지 한계로 인해 세계 탐험 훈련에 적합하지 않다. 본 논문에서는 일본어로 "세계"를 의미하는 Sekai를 소개한다. 이는 세계 탐험을 위한 풍부한 주석이 포함된 고품질의 일인칭 시점 전 세계 비디오 데이터셋이다. Sekai는 750개 도시에 걸쳐 100개 이상의 국가와 지역에서 촬영된 도보 또는 드론 뷰(FPV 및 UVA) 비디오 5,000시간 이상으로 구성되어 있다. 우리는 위치, 장면, 날씨, 인구 밀도, 캡션, 카메라 궤적 등의 정보를 포함하여 비디오를 수집, 전처리, 주석 처리하는 효율적이고 효과적인 툴박스를 개발했다. 실험을 통해 데이터셋의 품질을 입증하였으며, 일본어로 "꿈"을 의미하는 YUME라는 상호작용 비디오 세계 탐험 모델을 훈련하기 위해 데이터셋의 일부를 사용했다. 우리는 Sekai가 비디오 생성 및 세계 탐험 분야에 기여하고 가치 있는 응용 프로그램을 촉진할 것이라고 믿는다.
English
Video generation techniques have made remarkable progress, promising to be the foundation of interactive world exploration. However, existing video generation datasets are not well-suited for world exploration training as they suffer from some limitations: limited locations, short duration, static scenes, and a lack of annotations about exploration and the world. In this paper, we introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person view worldwide video dataset with rich annotations for world exploration. It consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from over 100 countries and regions across 750 cities. We develop an efficient and effective toolbox to collect, pre-process and annotate videos with location, scene, weather, crowd density, captions, and camera trajectories. Experiments demonstrate the quality of the dataset. And, we use a subset to train an interactive video world exploration model, named YUME (meaning ``dream'' in Japanese). We believe Sekai will benefit the area of video generation and world exploration, and motivate valuable applications.
PDF502June 19, 2025