MobileEgo Anywhere: Open infrastructuur voor egocentrische data over lange horizon op gangbare hardware

Samenvatting

De recente vooruitgang van Vision Language Action (VLA)-modellen heeft een kritieke vraag naar grootschalige egocentrische datasets aangewakkerd. Bestaande datasets worden echter vaak beperkt door korte episode-duur, doorgaans slechts enkele minuten, waardoor de temporele afhankelijkheden op lange termijn die nodig zijn voor complexe robottaakuitvoering niet worden vastgelegd. Om deze kloof te overbruggen presenteren we MobileEgo Anywhere, een raamwerk dat is ontworpen om het verzamelen van robuuste, meer dan een uur durende egocentrische trajecten mogelijk te maken met behulp van alledaagse mobiele hardware. We maken gebruik van de alomtegenwoordige sensorsuites van moderne smartphones om hoogwaardige, langdurige camerapositietracking te bieden, waardoor de hoge hardwarebarrières die gepaard gaan met traditionele robotica-datacollectie effectief worden geëlimineerd. Onze bijdragen zijn driedelig: (1) we publiceren een nieuwe dataset bestaande uit 200 uur aan diverse, langdurige egocentrische data met persistente toestandtracking; (2) we brengen een mobiele applicatie als open source uit waarmee elke gebruiker egocentrische data kan opnemen; en (3) we bieden een uitgebreide verwerkingspijplijn om ruwe mobiele opnames om te zetten in gestandaardiseerde, trainingsgereed formaten voor onderzoek naar Vision Language Action-modellen en funderingsmodellen. Door het democratiseren van het datacollectieproces maakt dit werk de verwerving op massale schaal van data over lange horizonten in uiteenlopende mondiale omgevingen mogelijk, wat de ontwikkeling van generaliseerbare robotica-beleidslijnen versnelt.

English

The recent advancement of Vision Language Action (VLA) models has driven a critical demand for large scale egocentric datasets. However, existing datasets are often limited by short episode durations, typically spanning only a few minutes, which fails to capture the long horizon temporal dependencies necessary for complex robotic task execution. To bridge this gap, we present MobileEgo Anywhere, a framework designed to facilitate the collection of robust, hour plus egocentric trajectories using commodity mobile hardware. We leverage the ubiquitous sensor suites of modern smartphones to provide high fidelity, long term camera pose tracking, effectively removing the high hardware barriers associated with traditional robotics data collection. Our contributions are three fold: (1) we release a novel dataset comprising 200 hours of diverse, long form egocentric data with persistent state tracking; (2) we open source a mobile application that enables any user to record egocentric data, and (3) we provide a comprehensive processing pipeline to convert raw mobile captures into standardized, training ready formats for Vision Language Action model and foundation model research. By democratizing the data collection process, this work enables the massive scale acquisition of long horizon data across varied global environments, accelerating the development of generalizable robotic policies.