MobileEgo Anywhere: Offene Infrastruktur für egozentrische Daten mit langem Zeithorizont auf handelsüblicher Hardware

Zusammenfassung

Die jüngsten Fortschritte bei Vision-Language-Action (VLA)-Modellen haben einen dringenden Bedarf an groß angelegten egozentrischen Datensätzen hervorgerufen. Allerdings sind bestehende Datensätze oft durch kurze Episodendauern von typischerweise nur wenigen Minuten begrenzt, was die für die Ausführung komplexer Robotikaufgaben erforderlichen zeitlichen Abhängigkeiten über lange Horizonte nicht erfassen kann. Um diese Lücke zu schließen, präsentieren wir MobileEgo Anywhere, ein Framework zur Erfassung robuster, stundenlanger egozentrischer Trajektorien mit handelsüblicher mobiler Hardware. Wir nutzen die allgegenwärtigen Sensorbündel moderner Smartphones für eine hochgenaue, langfristige Kameraposenverfolgung und beseitigen so effektiv die hohen Hürden, die traditionell mit der Robotikdatenerfassung verbunden sind. Unsere Beiträge sind dreifach: (1) Wir veröffentlichen einen neuartigen Datensatz mit 200 Stunden vielfältiger, langer egozentrischer Daten mit kontinuierlicher Zustandsverfolgung; (2) Wir stellen eine mobile App als Open Source zur Verfügung, die es jedem Benutzer ermöglicht, egozentrische Daten aufzuzeichnen; (3) Wir bieten eine umfassende Verarbeitungspipeline, die rohe mobile Aufnahmen in standardisierte, trainingsbereite Formate für die Forschung an Vision-Language-Action-Modellen und Grundlagenmodellen umwandelt. Durch die Demokratisierung des Datenerfassungsprozesses ermöglicht diese Arbeit die Erfassung von Langzeitdaten in großem Maßstab in unterschiedlichen globalen Umgebungen und beschleunigt die Entwicklung generalisierbarer Roboterpolitiken.

English

The recent advancement of Vision Language Action (VLA) models has driven a critical demand for large scale egocentric datasets. However, existing datasets are often limited by short episode durations, typically spanning only a few minutes, which fails to capture the long horizon temporal dependencies necessary for complex robotic task execution. To bridge this gap, we present MobileEgo Anywhere, a framework designed to facilitate the collection of robust, hour plus egocentric trajectories using commodity mobile hardware. We leverage the ubiquitous sensor suites of modern smartphones to provide high fidelity, long term camera pose tracking, effectively removing the high hardware barriers associated with traditional robotics data collection. Our contributions are three fold: (1) we release a novel dataset comprising 200 hours of diverse, long form egocentric data with persistent state tracking; (2) we open source a mobile application that enables any user to record egocentric data, and (3) we provide a comprehensive processing pipeline to convert raw mobile captures into standardized, training ready formats for Vision Language Action model and foundation model research. By democratizing the data collection process, this work enables the massive scale acquisition of long horizon data across varied global environments, accelerating the development of generalizable robotic policies.