ChatPaper.aiChatPaper

D2E: Scalabilità dell'Addestramento Preliminare Visione-Azione su Dati Desktop per il Trasferimento all'Intelligenza Artificiale Incorporata

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

October 7, 2025
Autori: Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee
cs.AI

Abstract

I grandi modelli linguistici sfruttano dati testuali su scala internet, mentre l'AI incarnata rimane limitata dai costi proibitivi della raccolta di traiettorie fisiche. Gli ambienti desktop, in particolare quelli di gioco, offrono un'alternativa convincente: forniscono interazioni sensorimotorie ricche su larga scala, mantenendo l'accoppiamento strutturato osservazione-azione essenziale per l'apprendimento incarnato. Presentiamo D2E (Desktop to Embodied AI), un framework che dimostra come le interazioni desktop possano servire come substrato efficace di pre-addestramento per i compiti di AI incarnata nella robotica. A differenza di lavori precedenti che rimanevano specifici per dominio (ad esempio, VPT per Minecraft) o mantenevano i dati proprietari (ad esempio, SIMA), D2E stabilisce una pipeline completa dalla raccolta scalabile di dati desktop al trasferimento verificato in domini incarnati. Il nostro framework comprende tre componenti: (1) il Toolkit OWA che unifica diverse interazioni desktop in un formato standardizzato con una compressione di 152x, (2) il Generalist-IDM che raggiunge una forte generalizzazione zero-shot su giochi non visti attraverso la previsione di eventi basata su timestamp, abilitando l'etichettatura pseudo-supervisionata su scala internet, e (3) VAPT che trasferisce rappresentazioni pre-addestrate su desktop alla manipolazione fisica e alla navigazione. Utilizzando 1.3K+ ore di dati (259 ore di dimostrazioni umane e 1K+ ore di gameplay pseudo-etichettato), raggiungiamo un tasso di successo totale del 96.6% sui benchmark di manipolazione LIBERO e dell'83.3% su quelli di navigazione CANVAS. Ciò conferma che i primitivi sensorimotori nelle interazioni digitali mostrano un'invarianza sufficiente per trasferirsi in modo significativo ai compiti fisici incarnati, stabilendo il pre-addestramento desktop come un paradigma pratico per la robotica. Renderemo pubblico tutto il nostro lavoro, incluso il toolkit OWA, i dataset raccolti da umani e pseudo-etichettati, e i modelli addestrati con VAPT, disponibili su https://worv-ai.github.io/d2e/.
English
Large language models leverage internet-scale text data, yet embodied AI remains constrained by the prohibitive costs of physical trajectory collection. Desktop environments -- particularly gaming -- offer a compelling alternative: they provide rich sensorimotor interactions at scale while maintaining the structured observation-action coupling essential for embodied learning. We present D2E (Desktop to Embodied AI), a framework that demonstrates desktop interactions can serve as an effective pretraining substrate for robotics embodied AI tasks. Unlike prior work that remained domain-specific (e.g., VPT for Minecraft) or kept data proprietary (e.g., SIMA), D2E establishes a complete pipeline from scalable desktop data collection to verified transfer in embodied domains. Our framework comprises three components: (1) the OWA Toolkit that unifies diverse desktop interactions into a standardized format with 152x compression, (2) the Generalist-IDM that achieves strong zero-shot generalization across unseen games through timestamp-based event prediction, enabling internet-scale pseudo-labeling, and (3) VAPT that transfers desktop-pretrained representations to physical manipulation and navigation. Using 1.3K+ hours of data (259 hours of human demonstrations, and 1K+ hours of pseudo-labeled gameplay), we achieve a total of 96.6% success rate on LIBERO manipulation and 83.3% on CANVAS navigation benchmarks. This validates that sensorimotor primitives in digital interactions exhibit sufficient invariance to transfer meaningfully to physical embodied tasks, establishing desktop pretraining as a practical paradigm for robotics. We will make all our work public, including the OWA toolkit, datasets of human-collected and pseudo-labeled, and VAPT-trained models available at https://worv-ai.github.io/d2e/
PDF1293October 13, 2025