Sekai : Un ensemble de données vidéo pour l'exploration du monde
Sekai: A Video Dataset towards World Exploration
June 18, 2025
Auteurs: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
cs.AI
Résumé
Les techniques de génération vidéo ont réalisé des progrès remarquables, promettant de devenir le fondement de l'exploration interactive du monde. Cependant, les ensembles de données existants pour la génération vidéo ne sont pas bien adaptés à l'entraînement à l'exploration du monde, car ils présentent certaines limitations : des lieux restreints, une durée courte, des scènes statiques et un manque d'annotations concernant l'exploration et le monde. Dans cet article, nous présentons Sekai (signifiant « monde » en japonais), un ensemble de données vidéo de haute qualité en vue à la première personne à l'échelle mondiale, avec des annotations riches pour l'exploration du monde. Il comprend plus de 5 000 heures de vidéos de marche ou de vue par drone (FPV et UVA) provenant de plus de 100 pays et régions à travers 750 villes. Nous avons développé une boîte à outils efficace et performante pour collecter, prétraiter et annoter les vidéos avec des informations sur la localisation, la scène, la météo, la densité de foule, les légendes et les trajectoires de la caméra. Les expériences démontrent la qualité de l'ensemble de données. De plus, nous utilisons un sous-ensemble pour entraîner un modèle interactif d'exploration vidéo du monde, nommé YUME (signifiant « rêve » en japonais). Nous croyons que Sekai bénéficiera au domaine de la génération vidéo et de l'exploration du monde, et inspirera des applications précieuses.
English
Video generation techniques have made remarkable progress, promising to be
the foundation of interactive world exploration. However, existing video
generation datasets are not well-suited for world exploration training as they
suffer from some limitations: limited locations, short duration, static scenes,
and a lack of annotations about exploration and the world. In this paper, we
introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person
view worldwide video dataset with rich annotations for world exploration. It
consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from
over 100 countries and regions across 750 cities. We develop an efficient and
effective toolbox to collect, pre-process and annotate videos with location,
scene, weather, crowd density, captions, and camera trajectories. Experiments
demonstrate the quality of the dataset. And, we use a subset to train an
interactive video world exploration model, named YUME (meaning ``dream'' in
Japanese). We believe Sekai will benefit the area of video generation and world
exploration, and motivate valuable applications.