Sekai: Un Dataset Video per l'Esplorazione del Mondo
Sekai: A Video Dataset towards World Exploration
June 18, 2025
Autori: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
cs.AI
Abstract
Le tecniche di generazione video hanno compiuto progressi notevoli, promettendo di diventare il fondamento per l'esplorazione interattiva del mondo. Tuttavia, i dataset esistenti per la generazione video non sono adatti per l'addestramento all'esplorazione del mondo, poiché presentano alcune limitazioni: località limitate, durata breve, scene statiche e una mancanza di annotazioni relative all'esplorazione e al mondo. In questo articolo, introduciamo Sekai (che significa "mondo" in giapponese), un dataset video di alta qualità in prima persona a livello mondiale, con annotazioni ricche per l'esplorazione del mondo. Esso consiste in oltre 5.000 ore di video a piedi o con vista da drone (FPV e UVA) provenienti da oltre 100 paesi e regioni in 750 città. Abbiamo sviluppato un toolbox efficiente ed efficace per raccogliere, pre-elaborare e annotare i video con informazioni sulla posizione, la scena, il meteo, la densità della folla, le didascalie e le traiettorie della telecamera. Gli esperimenti dimostrano la qualità del dataset. Inoltre, utilizziamo un sottoinsieme per addestrare un modello interattivo di esplorazione video del mondo, chiamato YUME (che significa "sogno" in giapponese). Crediamo che Sekai porterà benefici al campo della generazione video e dell'esplorazione del mondo, e stimolerà applicazioni di valore.
English
Video generation techniques have made remarkable progress, promising to be
the foundation of interactive world exploration. However, existing video
generation datasets are not well-suited for world exploration training as they
suffer from some limitations: limited locations, short duration, static scenes,
and a lack of annotations about exploration and the world. In this paper, we
introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person
view worldwide video dataset with rich annotations for world exploration. It
consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from
over 100 countries and regions across 750 cities. We develop an efficient and
effective toolbox to collect, pre-process and annotate videos with location,
scene, weather, crowd density, captions, and camera trajectories. Experiments
demonstrate the quality of the dataset. And, we use a subset to train an
interactive video world exploration model, named YUME (meaning ``dream'' in
Japanese). We believe Sekai will benefit the area of video generation and world
exploration, and motivate valuable applications.