Sekai: Een videodataset voor wereldverkenning
Sekai: A Video Dataset towards World Exploration
June 18, 2025
Auteurs: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
cs.AI
Samenvatting
Videogeneratietechnieken hebben opmerkelijke vooruitgang geboekt en beloven de basis te vormen voor interactieve wereldverkenning. Bestaande datasets voor videogeneratie zijn echter niet goed geschikt voor training in wereldverkenning, omdat ze enkele beperkingen hebben: beperkte locaties, korte duur, statische scènes en een gebrek aan annotaties over verkenning en de wereld. In dit artikel introduceren we Sekai (wat "wereld" betekent in het Japans), een hoogwaardige first-person view wereldwijde videodataset met rijke annotaties voor wereldverkenning. Het bestaat uit meer dan 5.000 uur aan wandel- of dronebeelden (FPV en UVA) uit meer dan 100 landen en regio's verspreid over 750 steden. We ontwikkelen een efficiënt en effectief toolbox om video's te verzamelen, voor te bewerken en te annoteren met locatie, scène, weer, drukte, bijschriften en cameratrajecten. Experimenten tonen de kwaliteit van de dataset aan. En we gebruiken een subset om een interactief videowereldverkenningmodel te trainen, genaamd YUME (wat "droom" betekent in het Japans). We geloven dat Sekai het gebied van videogeneratie en wereldverkenning ten goede zal komen en waardevolle toepassingen zal stimuleren.
English
Video generation techniques have made remarkable progress, promising to be
the foundation of interactive world exploration. However, existing video
generation datasets are not well-suited for world exploration training as they
suffer from some limitations: limited locations, short duration, static scenes,
and a lack of annotations about exploration and the world. In this paper, we
introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person
view worldwide video dataset with rich annotations for world exploration. It
consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from
over 100 countries and regions across 750 cities. We develop an efficient and
effective toolbox to collect, pre-process and annotate videos with location,
scene, weather, crowd density, captions, and camera trajectories. Experiments
demonstrate the quality of the dataset. And, we use a subset to train an
interactive video world exploration model, named YUME (meaning ``dream'' in
Japanese). We believe Sekai will benefit the area of video generation and world
exploration, and motivate valuable applications.