ChatPaper.aiChatPaper

Sekai: 世界探索のためのビデオデータセット

Sekai: A Video Dataset towards World Exploration

June 18, 2025
著者: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
cs.AI

要旨

ビデオ生成技術は目覚ましい進歩を遂げ、インタラクティブな世界探索の基盤となることが期待されています。しかし、既存のビデオ生成データセットは、世界探索のトレーニングに適していないという課題を抱えています。具体的には、限られた場所、短い時間、静的なシーン、そして探索や世界に関するアノテーションの欠如といった制約があります。本論文では、世界探索のための豊富なアノテーションを備えた高品質な一人称視点の全世界ビデオデータセット「Sekai」(日本語で「世界」を意味する)を紹介します。このデータセットは、750の都市にわたる100以上の国と地域から収集された、歩行またはドローン視点(FPVおよびUVA)の5,000時間以上のビデオで構成されています。私たちは、ビデオを収集、前処理、アノテーションするための効率的で効果的なツールボックスを開発し、位置、シーン、天気、混雑度、キャプション、カメラ軌道などの情報を付与しました。実験により、データセットの品質が実証されています。また、そのサブセットを使用して、インタラクティブなビデオ世界探索モデル「YUME」(日本語で「夢」を意味する)をトレーニングしました。私たちは、Sekaiがビデオ生成と世界探索の分野に貢献し、価値あるアプリケーションを促進することを信じています。
English
Video generation techniques have made remarkable progress, promising to be the foundation of interactive world exploration. However, existing video generation datasets are not well-suited for world exploration training as they suffer from some limitations: limited locations, short duration, static scenes, and a lack of annotations about exploration and the world. In this paper, we introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person view worldwide video dataset with rich annotations for world exploration. It consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from over 100 countries and regions across 750 cities. We develop an efficient and effective toolbox to collect, pre-process and annotate videos with location, scene, weather, crowd density, captions, and camera trajectories. Experiments demonstrate the quality of the dataset. And, we use a subset to train an interactive video world exploration model, named YUME (meaning ``dream'' in Japanese). We believe Sekai will benefit the area of video generation and world exploration, and motivate valuable applications.
PDF502June 19, 2025