Sekai: Ein Videodatensatz zur Erforschung der Welt
Sekai: A Video Dataset towards World Exploration
June 18, 2025
Autoren: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
cs.AI
Zusammenfassung
Videogenerierungstechniken haben bemerkenswerte Fortschritte gemacht und versprechen, die Grundlage für die interaktive Erkundung von Welten zu sein. Allerdings sind bestehende Videogenerierungsdatensätze nicht gut für das Training zur Welterkundung geeignet, da sie unter einigen Einschränkungen leiden: begrenzte Orte, kurze Dauer, statische Szenen und ein Mangel an Annotationen zur Erkundung und der Welt. In diesem Artikel stellen wir Sekai (was auf Japanisch „Welt“ bedeutet) vor, einen hochwertigen First-Person-View-Weltvideodatensatz mit umfangreichen Annotationen zur Welterkundung. Er besteht aus über 5.000 Stunden an Geh- oder Drohnenansichtsvideos (FPV und UVA) aus über 100 Ländern und Regionen in 750 Städten. Wir entwickeln ein effizientes und effektives Toolset, um Videos mit Standort, Szene, Wetter, Menschendichte, Beschreibungen und Kameratrajektorien zu sammeln, vorzuverarbeiten und zu annotieren. Experimente demonstrieren die Qualität des Datensatzes. Und wir verwenden eine Teilmenge, um ein interaktives Videowelterkundungsmodell namens YUME (was auf Japanisch „Traum“ bedeutet) zu trainieren. Wir glauben, dass Sekai den Bereich der Videogenerierung und Welterkundung bereichern und wertvolle Anwendungen motivieren wird.
English
Video generation techniques have made remarkable progress, promising to be
the foundation of interactive world exploration. However, existing video
generation datasets are not well-suited for world exploration training as they
suffer from some limitations: limited locations, short duration, static scenes,
and a lack of annotations about exploration and the world. In this paper, we
introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person
view worldwide video dataset with rich annotations for world exploration. It
consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from
over 100 countries and regions across 750 cities. We develop an efficient and
effective toolbox to collect, pre-process and annotate videos with location,
scene, weather, crowd density, captions, and camera trajectories. Experiments
demonstrate the quality of the dataset. And, we use a subset to train an
interactive video world exploration model, named YUME (meaning ``dream'' in
Japanese). We believe Sekai will benefit the area of video generation and world
exploration, and motivate valuable applications.