ChatPaper.aiChatPaper

Sekai : Un ensemble de données vidéo pour l'exploration du monde

Sekai: A Video Dataset towards World Exploration

June 18, 2025
Auteurs: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
cs.AI

Résumé

Les techniques de génération vidéo ont réalisé des progrès remarquables, promettant de devenir le fondement de l'exploration interactive du monde. Cependant, les ensembles de données existants pour la génération vidéo ne sont pas bien adaptés à l'entraînement à l'exploration du monde, car ils présentent certaines limitations : des lieux restreints, une durée courte, des scènes statiques et un manque d'annotations concernant l'exploration et le monde. Dans cet article, nous présentons Sekai (signifiant « monde » en japonais), un ensemble de données vidéo de haute qualité en vue à la première personne à l'échelle mondiale, avec des annotations riches pour l'exploration du monde. Il comprend plus de 5 000 heures de vidéos de marche ou de vue par drone (FPV et UVA) provenant de plus de 100 pays et régions à travers 750 villes. Nous avons développé une boîte à outils efficace et performante pour collecter, prétraiter et annoter les vidéos avec des informations sur la localisation, la scène, la météo, la densité de foule, les légendes et les trajectoires de la caméra. Les expériences démontrent la qualité de l'ensemble de données. De plus, nous utilisons un sous-ensemble pour entraîner un modèle interactif d'exploration vidéo du monde, nommé YUME (signifiant « rêve » en japonais). Nous croyons que Sekai bénéficiera au domaine de la génération vidéo et de l'exploration du monde, et inspirera des applications précieuses.
English
Video generation techniques have made remarkable progress, promising to be the foundation of interactive world exploration. However, existing video generation datasets are not well-suited for world exploration training as they suffer from some limitations: limited locations, short duration, static scenes, and a lack of annotations about exploration and the world. In this paper, we introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person view worldwide video dataset with rich annotations for world exploration. It consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from over 100 countries and regions across 750 cities. We develop an efficient and effective toolbox to collect, pre-process and annotate videos with location, scene, weather, crowd density, captions, and camera trajectories. Experiments demonstrate the quality of the dataset. And, we use a subset to train an interactive video world exploration model, named YUME (meaning ``dream'' in Japanese). We believe Sekai will benefit the area of video generation and world exploration, and motivate valuable applications.
PDF502June 19, 2025