MobileEgo Anywhere: 市販ハードウェア上での長期エゴセントリックデータのためのオープンインフラストラクチャ
MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware
May 7, 2026
著者: Senthil Palanisamy, Abhishek Anand, Satpal Singh Rathor, Pratyush Patnaik, Shubhanshu Khatana
cs.AI
要旨
近年の視覚言語行動(VLA)モデルの進展により、大規模なエゴセントリックデータセットへの需要が急増している。しかし、既存のデータセットは典型的に数分間と短いエピソード持続時間に制限されており、複雑なロボットタスクの実行に必要な長期的な時間的依存関係を捉えることができない。このギャップを埋めるため、我々はMobileEgo Anywhereを提案する。これは、汎用モバイルハードウェアを用いて、1時間以上の頑健なエゴセントリック軌跡の収集を容易にするフレームワークである。我々は、現代のスマートフォンに搭載されたユビキタスなセンサースイートを活用し、高忠実度かつ長期にわたるカメラポーズ追跡を実現することで、従来のロボティクスデータ収集に伴う高いハードウェア障壁を効果的に除去する。本論文の貢献は以下の3点である。(1)持続的な状態追跡を伴う、多様で長時間形式のエゴセントリックデータを200時間含む新しいデータセットを公開する。(2)任意のユーザーがエゴセントリックデータを記録可能なモバイルアプリケーションをオープンソース化する。(3)生のモバイルキャプチャを、VLAモデルおよび基盤モデル研究向けの標準化された訓練可能な形式に変換する包括的な処理パイプラインを提供する。データ収集プロセスを民主化することで、本研究成果は、多様なグローバル環境下における長期的データの大規模収集を可能にし、汎化可能なロボットポリシーの開発を加速する。
English
The recent advancement of Vision Language Action (VLA) models has driven a critical demand for large scale egocentric datasets. However, existing datasets are often limited by short episode durations, typically spanning only a few minutes, which fails to capture the long horizon temporal dependencies necessary for complex robotic task execution. To bridge this gap, we present MobileEgo Anywhere, a framework designed to facilitate the collection of robust, hour plus egocentric trajectories using commodity mobile hardware. We leverage the ubiquitous sensor suites of modern smartphones to provide high fidelity, long term camera pose tracking, effectively removing the high hardware barriers associated with traditional robotics data collection. Our contributions are three fold: (1) we release a novel dataset comprising 200 hours of diverse, long form egocentric data with persistent state tracking; (2) we open source a mobile application that enables any user to record egocentric data, and (3) we provide a comprehensive processing pipeline to convert raw mobile captures into standardized, training ready formats for Vision Language Action model and foundation model research. By democratizing the data collection process, this work enables the massive scale acquisition of long horizon data across varied global environments, accelerating the development of generalizable robotic policies.