ChatPaper.aiChatPaper

Sekai: Um Conjunto de Dados de Vídeo para Exploração do Mundo

Sekai: A Video Dataset towards World Exploration

June 18, 2025
Autores: Zhen Li, Chuanhao Li, Xiaofeng Mao, Shaoheng Lin, Ming Li, Shitian Zhao, Zhaopan Xu, Xinyue Li, Yukang Feng, Jianwen Sun, Zizhen Li, Fanrui Zhang, Jiaxin Ai, Zhixiang Wang, Yuwei Wu, Tong He, Jiangmiao Pang, Yu Qiao, Yunde Jia, Kaipeng Zhang
cs.AI

Resumo

As técnicas de geração de vídeo têm feito progressos notáveis, prometendo ser a base para a exploração interativa de mundos. No entanto, os conjuntos de dados existentes para geração de vídeo não são adequados para o treinamento de exploração de mundos, pois sofrem com algumas limitações: locais restritos, duração curta, cenas estáticas e falta de anotações sobre a exploração e o mundo. Neste artigo, apresentamos Sekai (que significa "mundo" em japonês), um conjunto de dados de vídeo de alta qualidade em primeira pessoa, com anotações ricas para exploração de mundos. Ele consiste em mais de 5.000 horas de vídeos de caminhadas ou visão de drone (FPV e UVA) de mais de 100 países e regiões, abrangendo 750 cidades. Desenvolvemos uma caixa de ferramentas eficiente e eficaz para coletar, pré-processar e anotar vídeos com localização, cena, clima, densidade de pessoas, legendas e trajetórias da câmera. Experimentos demonstram a qualidade do conjunto de dados. E, usamos um subconjunto para treinar um modelo interativo de exploração de mundos em vídeo, chamado YUME (que significa "sonho" em japonês). Acreditamos que Sekai beneficiará a área de geração de vídeo e exploração de mundos, e motivará aplicações valiosas.
English
Video generation techniques have made remarkable progress, promising to be the foundation of interactive world exploration. However, existing video generation datasets are not well-suited for world exploration training as they suffer from some limitations: limited locations, short duration, static scenes, and a lack of annotations about exploration and the world. In this paper, we introduce Sekai (meaning ``world'' in Japanese), a high-quality first-person view worldwide video dataset with rich annotations for world exploration. It consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from over 100 countries and regions across 750 cities. We develop an efficient and effective toolbox to collect, pre-process and annotate videos with location, scene, weather, crowd density, captions, and camera trajectories. Experiments demonstrate the quality of the dataset. And, we use a subset to train an interactive video world exploration model, named YUME (meaning ``dream'' in Japanese). We believe Sekai will benefit the area of video generation and world exploration, and motivate valuable applications.
PDF642June 19, 2025