MobileEgo Anywhere: Infraestrutura Aberta para Dados Egocêntricos de Longo Horizonte em Hardware Commodity

Resumo

O recente avanço dos modelos de Visão-Linguagem-Ação (VLA) gerou uma demanda crítica por conjuntos de dados egocêntricos em grande escala. No entanto, os conjuntos de dados existentes frequentemente são limitados por curtas durações de episódios, geralmente abrangendo apenas alguns minutos, o que não captura as dependências temporais de longo horizonte necessárias para a execução de tarefas robóticas complexas. Para preencher essa lacuna, apresentamos o MobileEgo Anywhere, uma estrutura projetada para facilitar a coleta de trajetórias egocêntricas robustas, com duração de uma hora ou mais, utilizando hardware móvel comercial. Aproveitamos os conjuntos de sensores onipresentes dos smartphones modernos para fornecer rastreamento de pose de câmera de alta fidelidade e longo prazo, eliminando efetivamente as altas barreiras de hardware associadas à coleta tradicional de dados robóticos. Nossas contribuições são triplas: (1) disponibilizamos um novo conjunto de dados contendo 200 horas de dados egocêntricos diversos e de longa duração, com rastreamento persistente de estado; (2) disponibilizamos como código aberto um aplicativo móvel que permite a qualquer usuário gravar dados egocêntricos; e (3) fornecemos um pipeline de processamento abrangente para converter capturas brutas de dispositivos móveis em formatos padronizados e prontos para treinamento, voltados para pesquisas em modelos de Visão-Linguagem-Ação e modelos fundamentais. Ao democratizar o processo de coleta de dados, este trabalho possibilita a aquisição em escala massiva de dados de longo horizonte em diversos ambientes globais, acelerando o desenvolvimento de políticas robóticas generalizáveis.

English

The recent advancement of Vision Language Action (VLA) models has driven a critical demand for large scale egocentric datasets. However, existing datasets are often limited by short episode durations, typically spanning only a few minutes, which fails to capture the long horizon temporal dependencies necessary for complex robotic task execution. To bridge this gap, we present MobileEgo Anywhere, a framework designed to facilitate the collection of robust, hour plus egocentric trajectories using commodity mobile hardware. We leverage the ubiquitous sensor suites of modern smartphones to provide high fidelity, long term camera pose tracking, effectively removing the high hardware barriers associated with traditional robotics data collection. Our contributions are three fold: (1) we release a novel dataset comprising 200 hours of diverse, long form egocentric data with persistent state tracking; (2) we open source a mobile application that enables any user to record egocentric data, and (3) we provide a comprehensive processing pipeline to convert raw mobile captures into standardized, training ready formats for Vision Language Action model and foundation model research. By democratizing the data collection process, this work enables the massive scale acquisition of long horizon data across varied global environments, accelerating the development of generalizable robotic policies.