MobileEgo Anywhere: 상용 하드웨어에서 장기 에고센트릭 데이터를 위한 오픈 인프라
MobileEgo Anywhere: Open Infrastructure for long horizon egocentric data on commodity hardware
May 7, 2026
저자: Senthil Palanisamy, Abhishek Anand, Satpal Singh Rathor, Pratyush Patnaik, Shubhanshu Khatana
cs.AI
초록
최근 시각-언어-행동(Vision Language Action, VLA) 모델의 발전으로 대규모 자기중심적(egocentric) 데이터셋에 대한 중요한 요구가 대두되었다. 그러나 기존 데이터셋은 일반적으로 수 분에 불과한 짧은 에피소드 길이로 제한되어, 복잡한 로봇 작업 실행에 필요한 장기적 시간 의존성(long horizon temporal dependencies)을 포착하지 못한다. 이러한 격차를 해소하기 위해 본 논문에서는 일반 모바일 하드웨어를 사용하여 1시간 이상의 강건한 자기중심적 궤적을 수집할 수 있는 프레임워크인 MobileEgo Anywhere를 제시한다. 현대 스마트폰의 보편적인 센서 제품군을 활용하여 고정밀의 장기 카메라 포즈 추적(camera pose tracking)을 제공함으로써, 전통적인 로봇 데이터 수집과 관련된 높은 하드웨어 장벽을 효과적으로 제거한다. 본 연구의 기여는 세 가지로 요약된다: (1) 지속적인 상태 추적이 포함된 200시간 분량의 다양하고 긴 형식의 자기중심적 데이터로 구성된 새로운 데이터셋을 공개하고, (2) 모든 사용자가 자기중심적 데이터를 기록할 수 있는 모바일 애플리케이션을 오픈소스로 제공하며, (3) 원시 모바일 캡처 데이터를 시각-언어-행동 모델 및 기초 모델 연구를 위한 표준화된 학습 준비 형식으로 변환하는 포괄적인 처리 파이프라인을 제공한다. 데이터 수집 과정을 대중화함으로써, 본 연구는 다양한 글로벌 환경에서 대규모 장기 데이터 획득을 가능하게 하여 일반화 가능한 로봇 정책의 개발을 가속화한다.
English
The recent advancement of Vision Language Action (VLA) models has driven a critical demand for large scale egocentric datasets. However, existing datasets are often limited by short episode durations, typically spanning only a few minutes, which fails to capture the long horizon temporal dependencies necessary for complex robotic task execution. To bridge this gap, we present MobileEgo Anywhere, a framework designed to facilitate the collection of robust, hour plus egocentric trajectories using commodity mobile hardware. We leverage the ubiquitous sensor suites of modern smartphones to provide high fidelity, long term camera pose tracking, effectively removing the high hardware barriers associated with traditional robotics data collection. Our contributions are three fold: (1) we release a novel dataset comprising 200 hours of diverse, long form egocentric data with persistent state tracking; (2) we open source a mobile application that enables any user to record egocentric data, and (3) we provide a comprehensive processing pipeline to convert raw mobile captures into standardized, training ready formats for Vision Language Action model and foundation model research. By democratizing the data collection process, this work enables the massive scale acquisition of long horizon data across varied global environments, accelerating the development of generalizable robotic policies.