ChatPaper.aiChatPaper

D2E: Масштабирование предварительного обучения "зрение-действие" на данных с настольных компьютеров для переноса в воплощённый ИИ

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

October 7, 2025
Авторы: Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee
cs.AI

Аннотация

Крупные языковые модели используют интернет-масштабные текстовые данные, однако воплощённый ИИ остаётся ограниченным из-за непомерно высоких затрат на сбор физических траекторий. Настольные среды — особенно игровые — предлагают убедительную альтернативу: они обеспечивают богатые сенсомоторные взаимодействия в масштабе, сохраняя при этом структурированную связь между наблюдением и действием, необходимую для воплощённого обучения. Мы представляем D2E (Desktop to Embodied AI) — фреймворк, который демонстрирует, что взаимодействия в настольных средах могут служить эффективной основой для предварительного обучения задач воплощённого ИИ в робототехнике. В отличие от предыдущих работ, которые оставались узкоспециализированными (например, VPT для Minecraft) или сохраняли данные закрытыми (например, SIMA), D2E устанавливает полный конвейер от масштабируемого сбора данных в настольных средах до проверенного переноса в воплощённые домены. Наш фреймворк состоит из трёх компонентов: (1) OWA Toolkit, который унифицирует разнообразные настольные взаимодействия в стандартизированный формат с 152-кратным сжатием, (2) Generalist-IDM, который достигает сильной обобщающей способности на новых играх через предсказание событий на основе временных меток, что позволяет масштабировать псевдоразметку до интернет-уровня, и (3) VAPT, который переносит представления, предварительно обученные на настольных данных, на задачи физического манипулирования и навигации. Используя более 1,3 тыс. часов данных (259 часов человеческих демонстраций и более 1 тыс. часов псевдоразмеченного игрового процесса), мы достигаем общего уровня успешности 96,6% на бенчмарке манипулирования LIBERO и 83,3% на бенчмарке навигации CANVAS. Это подтверждает, что сенсомоторные примитивы в цифровых взаимодействиях обладают достаточной инвариантностью для значимого переноса на физические воплощённые задачи, устанавливая предварительное обучение в настольных средах как практическую парадигму для робототехники. Мы сделаем всю нашу работу общедоступной, включая OWA Toolkit, наборы данных, собранные человеком и псевдоразмеченные, а также модели, обученные с помощью VAPT, доступными по адресу https://worv-ai.github.io/d2e/.
English
Large language models leverage internet-scale text data, yet embodied AI remains constrained by the prohibitive costs of physical trajectory collection. Desktop environments -- particularly gaming -- offer a compelling alternative: they provide rich sensorimotor interactions at scale while maintaining the structured observation-action coupling essential for embodied learning. We present D2E (Desktop to Embodied AI), a framework that demonstrates desktop interactions can serve as an effective pretraining substrate for robotics embodied AI tasks. Unlike prior work that remained domain-specific (e.g., VPT for Minecraft) or kept data proprietary (e.g., SIMA), D2E establishes a complete pipeline from scalable desktop data collection to verified transfer in embodied domains. Our framework comprises three components: (1) the OWA Toolkit that unifies diverse desktop interactions into a standardized format with 152x compression, (2) the Generalist-IDM that achieves strong zero-shot generalization across unseen games through timestamp-based event prediction, enabling internet-scale pseudo-labeling, and (3) VAPT that transfers desktop-pretrained representations to physical manipulation and navigation. Using 1.3K+ hours of data (259 hours of human demonstrations, and 1K+ hours of pseudo-labeled gameplay), we achieve a total of 96.6% success rate on LIBERO manipulation and 83.3% on CANVAS navigation benchmarks. This validates that sensorimotor primitives in digital interactions exhibit sufficient invariance to transfer meaningfully to physical embodied tasks, establishing desktop pretraining as a practical paradigm for robotics. We will make all our work public, including the OWA toolkit, datasets of human-collected and pseudo-labeled, and VAPT-trained models available at https://worv-ai.github.io/d2e/
PDF1293October 13, 2025