Sekai: Видеодатасет для исследования мира
Sekai: A Video Dataset towards World Exploration
June 18, 2025
Авторы: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
cs.AI
Аннотация
Технологии генерации видео достигли значительного прогресса, обещая стать основой для интерактивного исследования мира. Однако существующие наборы данных для генерации видео не подходят для обучения исследованию мира из-за некоторых ограничений: ограниченное количество локаций, короткая продолжительность, статичные сцены и отсутствие аннотаций, связанных с исследованием и миром. В этой статье мы представляем Sekai (что означает «мир» на японском), высококачественный набор данных с видео от первого лица по всему миру, содержащий богатые аннотации для исследования мира. Он включает более 5000 часов видео с пеших прогулок или съемки с дронов (FPV и UVA) из более чем 100 стран и регионов, охватывающих 750 городов. Мы разработали эффективный инструментарий для сбора, предварительной обработки и аннотирования видео с указанием местоположения, сцены, погоды, плотности толпы, описаний и траекторий камеры. Эксперименты демонстрируют качество набора данных. Мы используем его подмножество для обучения интерактивной модели исследования мира через видео, названной YUME (что означает «мечта» на японском). Мы уверены, что Sekai принесет пользу области генерации видео и исследования мира, а также вдохновит на создание ценных приложений.
English
Video generation techniques have made remarkable progress, promising to be
the foundation of interactive world exploration. However, existing video
generation datasets are not well-suited for world exploration training as they
suffer from some limitations: limited locations, short duration, static scenes,
and a lack of annotations about exploration and the world. In this paper, we
introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person
view worldwide video dataset with rich annotations for world exploration. It
consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from
over 100 countries and regions across 750 cities. We develop an efficient and
effective toolbox to collect, pre-process and annotate videos with location,
scene, weather, crowd density, captions, and camera trajectories. Experiments
demonstrate the quality of the dataset. And, we use a subset to train an
interactive video world exploration model, named YUME (meaning ``dream'' in
Japanese). We believe Sekai will benefit the area of video generation and world
exploration, and motivate valuable applications.