ChatPaper.aiChatPaper

Sekai: Un conjunto de datos de video para la exploración del mundo

Sekai: A Video Dataset towards World Exploration

June 18, 2025
Autores: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
cs.AI

Resumen

Las técnicas de generación de videos han logrado avances notables, prometiendo ser la base para la exploración interactiva de mundos. Sin embargo, los conjuntos de datos existentes para la generación de videos no son adecuados para el entrenamiento en exploración de mundos, ya que presentan algunas limitaciones: ubicaciones limitadas, duración corta, escenas estáticas y falta de anotaciones sobre la exploración y el mundo. En este artículo, presentamos Sekai (que significa "mundo" en japonés), un conjunto de datos de videos de alta calidad en primera persona a nivel mundial, con anotaciones ricas para la exploración de mundos. Consta de más de 5,000 horas de videos de caminata o vista de dron (FPV y UVA) de más de 100 países y regiones en 750 ciudades. Desarrollamos una caja de herramientas eficiente y efectiva para recopilar, preprocesar y anotar videos con ubicación, escena, clima, densidad de multitudes, descripciones y trayectorias de la cámara. Los experimentos demuestran la calidad del conjunto de datos. Además, utilizamos un subconjunto para entrenar un modelo interactivo de exploración de mundos en video, llamado YUME (que significa "sueño" en japonés). Creemos que Sekai beneficiará el área de generación de videos y exploración de mundos, y motivará aplicaciones valiosas.
English
Video generation techniques have made remarkable progress, promising to be the foundation of interactive world exploration. However, existing video generation datasets are not well-suited for world exploration training as they suffer from some limitations: limited locations, short duration, static scenes, and a lack of annotations about exploration and the world. In this paper, we introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person view worldwide video dataset with rich annotations for world exploration. It consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from over 100 countries and regions across 750 cities. We develop an efficient and effective toolbox to collect, pre-process and annotate videos with location, scene, weather, crowd density, captions, and camera trajectories. Experiments demonstrate the quality of the dataset. And, we use a subset to train an interactive video world exploration model, named YUME (meaning ``dream'' in Japanese). We believe Sekai will benefit the area of video generation and world exploration, and motivate valuable applications.
PDF502June 19, 2025