MobileEgo Anywhere : Infrastructure ouverte pour des données égocentriques à long horizon sur du matériel du commerce

Résumé

Les récentes avancées des modèles Vision Langage Action (VLA) ont généré un besoin critique en ensembles de données égocentriques à grande échelle. Cependant, les ensembles existants sont souvent limités par des durées d'épisodes courtes, ne couvrant généralement que quelques minutes, ce qui ne permet pas de capturer les dépendances temporelles à long horizon nécessaires à l'exécution de tâches robotiques complexes. Pour combler cette lacune, nous présentons MobileEgo Anywhere, un cadre conçu pour faciliter la collecte de trajectoires égocentriques robustes d'une heure ou plus à l'aide d'un matériel mobile grand public. Nous exploitons les capteurs omniprésents des smartphones modernes pour offrir un suivi de pose de caméra haute fidélité sur le long terme, levant ainsi les obstacles matériels élevés associés à la collecte de données robotiques traditionnelles. Nos contributions sont triples : (1) nous publions un nouvel ensemble de données comprenant 200 heures de données égocentriques variées et de longue durée, avec un suivi persistant des états ; (2) nous open source une application mobile permettant à tout utilisateur d'enregistrer des données égocentriques ; et (3) nous fournissons un pipeline de traitement complet pour convertir les captures mobiles brutes en formats standardisés, prêts pour l'entraînement, destinés à la recherche sur les modèles Vision Langage Action et les modèles de base. En démocratisant le processus de collecte de données, ce travail permet l'acquisition à grande échelle de données à long horizon dans des environnements globaux variés, accélérant ainsi le développement de politiques robotiques généralisables.

English

The recent advancement of Vision Language Action (VLA) models has driven a critical demand for large scale egocentric datasets. However, existing datasets are often limited by short episode durations, typically spanning only a few minutes, which fails to capture the long horizon temporal dependencies necessary for complex robotic task execution. To bridge this gap, we present MobileEgo Anywhere, a framework designed to facilitate the collection of robust, hour plus egocentric trajectories using commodity mobile hardware. We leverage the ubiquitous sensor suites of modern smartphones to provide high fidelity, long term camera pose tracking, effectively removing the high hardware barriers associated with traditional robotics data collection. Our contributions are three fold: (1) we release a novel dataset comprising 200 hours of diverse, long form egocentric data with persistent state tracking; (2) we open source a mobile application that enables any user to record egocentric data, and (3) we provide a comprehensive processing pipeline to convert raw mobile captures into standardized, training ready formats for Vision Language Action model and foundation model research. By democratizing the data collection process, this work enables the massive scale acquisition of long horizon data across varied global environments, accelerating the development of generalizable robotic policies.