ChatPaper.aiChatPaper

EgoVid-5M:エゴセントリックビデオ生成のための大規模ビデオアクションデータセット

EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation

November 13, 2024
著者: Xiaofeng Wang, Kang Zhao, Feng Liu, Jiayu Wang, Guosheng Zhao, Xiaoyi Bao, Zheng Zhu, Yingya Zhang, Xingang Wang
cs.AI

要旨

ビデオ生成は、視覚データを活用して現実世界の環境を再現するための有望なツールとして台頭しており、人間の視点に焦点を当てたエゴセントリックなビデオ生成は、仮想現実、拡張現実、およびゲーム分野の応用を向上させるための大きな潜在能力を持っています。しかし、エゴセントリックなビデオの生成は、エゴセントリックな視点の動的な性質、複雑なアクションの多様性、および遭遇する複雑なシーンの多様性により、重大な課題を抱えています。既存のデータセットはこれらの課題に効果的に対処するために不十分です。このギャップを埋めるために、エゴセントリックなビデオ生成に特化した初の高品質データセットであるEgoVid-5Mを提案します。EgoVid-5Mには、500万のエゴセントリックなビデオクリップが含まれており、微細な運動制御や高レベルのテキスト記述を含む詳細なアクション注釈で充実しています。データセットの整合性と利用可能性を確保するために、エゴセントリックな状況下でのフレームの一貫性、アクションの一貫性、および運動の滑らかさを維持するように設計された洗練されたデータクリーニングパイプラインを実装しています。さらに、アクションの記述と運動制御信号によって同時に駆動されるエゴセントリックなビデオを生成することができるEgoDreamerを紹介しています。EgoVid-5Mデータセット、関連するアクション注釈、およびすべてのデータクリーニングメタデータは、エゴセントリックなビデオ生成の研究の進展のために公開されます。
English
Video generation has emerged as a promising tool for world simulation, leveraging visual data to replicate real-world environments. Within this context, egocentric video generation, which centers on the human perspective, holds significant potential for enhancing applications in virtual reality, augmented reality, and gaming. However, the generation of egocentric videos presents substantial challenges due to the dynamic nature of egocentric viewpoints, the intricate diversity of actions, and the complex variety of scenes encountered. Existing datasets are inadequate for addressing these challenges effectively. To bridge this gap, we present EgoVid-5M, the first high-quality dataset specifically curated for egocentric video generation. EgoVid-5M encompasses 5 million egocentric video clips and is enriched with detailed action annotations, including fine-grained kinematic control and high-level textual descriptions. To ensure the integrity and usability of the dataset, we implement a sophisticated data cleaning pipeline designed to maintain frame consistency, action coherence, and motion smoothness under egocentric conditions. Furthermore, we introduce EgoDreamer, which is capable of generating egocentric videos driven simultaneously by action descriptions and kinematic control signals. The EgoVid-5M dataset, associated action annotations, and all data cleansing metadata will be released for the advancement of research in egocentric video generation.
PDF263November 14, 2024