MobileEgo Anywhere: Открытая инфраструктура для долгосрочных эгоцентрических данных на стандартном оборудовании

Аннотация

Недавние достижения в области моделей Vision Language Action (VLA) обусловили критическую потребность в крупномасштабных эгоцентрических наборах данных. Однако существующие наборы данных часто ограничены короткой продолжительностью эпизодов, обычно составляющей всего несколько минут, что не позволяет улавливать долговременные временные зависимости, необходимые для выполнения сложных роботизированных задач. Для преодоления этого разрыва мы представляем MobileEgo Anywhere — фреймворк, предназначенный для сбора надежных эгоцентрических траекторий продолжительностью более часа с использованием доступного мобильного оборудования. Мы используем повсеместно распространенные сенсорные комплекты современных смартфонов для обеспечения высокоточного долгосрочного отслеживания положения камеры, эффективно устраняя высокие аппаратные барьеры, связанные с традиционным сбором роботизированных данных. Наш вклад состоит из трех аспектов: (1) мы публикуем новый набор данных, содержащий 200 часов разнообразных длительных эгоцентрических данных с постоянным отслеживанием состояния; (2) мы предоставляем в открытом доступе мобильное приложение, позволяющее любому пользователю записывать эгоцентрические данные; и (3) мы предлагаем комплексный конвейер обработки для преобразования необработанных данных с мобильных устройств в стандартизированные форматы, готовые для обучения моделей Vision Language Action и фундаментальных моделей. Демократизируя процесс сбора данных, данная работа обеспечивает возможность массового получения долговременных данных в разнообразных мировых средах, ускоряя разработку обобщаемых роботизированных политик.

English

The recent advancement of Vision Language Action (VLA) models has driven a critical demand for large scale egocentric datasets. However, existing datasets are often limited by short episode durations, typically spanning only a few minutes, which fails to capture the long horizon temporal dependencies necessary for complex robotic task execution. To bridge this gap, we present MobileEgo Anywhere, a framework designed to facilitate the collection of robust, hour plus egocentric trajectories using commodity mobile hardware. We leverage the ubiquitous sensor suites of modern smartphones to provide high fidelity, long term camera pose tracking, effectively removing the high hardware barriers associated with traditional robotics data collection. Our contributions are three fold: (1) we release a novel dataset comprising 200 hours of diverse, long form egocentric data with persistent state tracking; (2) we open source a mobile application that enables any user to record egocentric data, and (3) we provide a comprehensive processing pipeline to convert raw mobile captures into standardized, training ready formats for Vision Language Action model and foundation model research. By democratizing the data collection process, this work enables the massive scale acquisition of long horizon data across varied global environments, accelerating the development of generalizable robotic policies.