MobileEgo Anywhere: Infraestructura Abierta para datos egocéntricos de largo horizonte en hardware estándar

Resumen

El reciente avance de los modelos de Visión Lenguaje Acción (VLA) ha generado una demanda crítica de conjuntos de datos egocéntricos a gran escala. Sin embargo, los conjuntos de datos existentes suelen estar limitados por episodios de corta duración, que abarcan típicamente solo unos pocos minutos, lo que no logra capturar las dependencias temporales de largo horizonte necesarias para la ejecución de tareas robóticas complejas. Para superar esta brecha, presentamos MobileEgo Anywhere, un marco diseñado para facilitar la recolección de trayectorias egocéntricas robustas de más de una hora utilizando hardware móvil comercial. Aprovechamos las ubicuas suites de sensores de los teléfonos inteligentes modernos para proporcionar un seguimiento de pose de cámara de alta fidelidad y largo plazo, eliminando efectivamente las altas barreras de hardware asociadas con la recolección de datos robóticos tradicional. Nuestras contribuciones son tres: (1) publicamos un novedoso conjunto de datos que comprende 200 horas de datos egocéntricos diversos y de formato largo con seguimiento persistente de estado; (2) lanzamos como código abierto una aplicación móvil que permite a cualquier usuario grabar datos egocéntricos; y (3) proporcionamos un flujo de procesamiento integral para convertir las capturas móviles en bruto en formatos estandarizados listos para entrenamiento de modelos Visión Lenguaje Acción e investigación de modelos fundacionales. Al democratizar el proceso de recolección de datos, este trabajo permite la adquisición masiva a gran escala de datos de largo horizonte en diversos entornos globales, acelerando el desarrollo de políticas robóticas generalizables.

English

The recent advancement of Vision Language Action (VLA) models has driven a critical demand for large scale egocentric datasets. However, existing datasets are often limited by short episode durations, typically spanning only a few minutes, which fails to capture the long horizon temporal dependencies necessary for complex robotic task execution. To bridge this gap, we present MobileEgo Anywhere, a framework designed to facilitate the collection of robust, hour plus egocentric trajectories using commodity mobile hardware. We leverage the ubiquitous sensor suites of modern smartphones to provide high fidelity, long term camera pose tracking, effectively removing the high hardware barriers associated with traditional robotics data collection. Our contributions are three fold: (1) we release a novel dataset comprising 200 hours of diverse, long form egocentric data with persistent state tracking; (2) we open source a mobile application that enables any user to record egocentric data, and (3) we provide a comprehensive processing pipeline to convert raw mobile captures into standardized, training ready formats for Vision Language Action model and foundation model research. By democratizing the data collection process, this work enables the massive scale acquisition of long horizon data across varied global environments, accelerating the development of generalizable robotic policies.