D2E: Escalonando o Pré-treinamento Visão-Ação em Dados de Desktop para Transferência em IA Embarcada
D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI
October 7, 2025
Autores: Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee
cs.AI
Resumo
Modelos de linguagem de grande escala aproveitam dados de texto em escala da internet, mas a IA incorporada continua limitada pelos custos proibitivos da coleta de trajetórias físicas. Ambientes de desktop — particularmente jogos — oferecem uma alternativa convincente: eles proporcionam interações sensório-motoras ricas em escala, mantendo o acoplamento estruturado observação-ação essencial para o aprendizado incorporado. Apresentamos o D2E (Desktop to Embodied AI), um framework que demonstra que interações em desktop podem servir como um substrato eficaz de pré-treinamento para tarefas de IA incorporada em robótica. Diferente de trabalhos anteriores que permaneceram específicos de domínio (por exemplo, VPT para Minecraft) ou mantiveram os dados proprietários (por exemplo, SIMA), o D2E estabelece um pipeline completo desde a coleta escalável de dados em desktop até a transferência verificada em domínios incorporados. Nosso framework compreende três componentes: (1) o OWA Toolkit, que unifica diversas interações de desktop em um formato padronizado com compressão de 152x, (2) o Generalist-IDM, que alcança forte generalização zero-shot em jogos não vistos através da previsão de eventos baseada em timestamps, permitindo pseudo-rotulação em escala da internet, e (3) o VAPT, que transfere representações pré-treinadas em desktop para manipulação física e navegação. Utilizando mais de 1.3K horas de dados (259 horas de demonstrações humanas e mais de 1K horas de jogos pseudo-rotulados), alcançamos uma taxa de sucesso total de 96.6% no benchmark de manipulação LIBERO e 83.3% no benchmark de navegação CANVAS. Isso valida que primitivas sensório-motoras em interações digitais exibem invariância suficiente para transferir de forma significativa para tarefas físicas incorporadas, estabelecendo o pré-treinamento em desktop como um paradigma prático para robótica. Tornaremos todo o nosso trabalho público, incluindo o OWA toolkit, conjuntos de dados coletados por humanos e pseudo-rotulados, e modelos treinados com VAPT disponíveis em https://worv-ai.github.io/d2e/.
English
Large language models leverage internet-scale text data, yet embodied AI
remains constrained by the prohibitive costs of physical trajectory collection.
Desktop environments -- particularly gaming -- offer a compelling alternative:
they provide rich sensorimotor interactions at scale while maintaining the
structured observation-action coupling essential for embodied learning. We
present D2E (Desktop to Embodied AI), a framework that demonstrates desktop
interactions can serve as an effective pretraining substrate for robotics
embodied AI tasks. Unlike prior work that remained domain-specific (e.g., VPT
for Minecraft) or kept data proprietary (e.g., SIMA), D2E establishes a
complete pipeline from scalable desktop data collection to verified transfer in
embodied domains. Our framework comprises three components: (1) the OWA Toolkit
that unifies diverse desktop interactions into a standardized format with 152x
compression, (2) the Generalist-IDM that achieves strong zero-shot
generalization across unseen games through timestamp-based event prediction,
enabling internet-scale pseudo-labeling, and (3) VAPT that transfers
desktop-pretrained representations to physical manipulation and navigation.
Using 1.3K+ hours of data (259 hours of human demonstrations, and 1K+ hours of
pseudo-labeled gameplay), we achieve a total of 96.6% success rate on LIBERO
manipulation and 83.3% on CANVAS navigation benchmarks. This validates that
sensorimotor primitives in digital interactions exhibit sufficient invariance
to transfer meaningfully to physical embodied tasks, establishing desktop
pretraining as a practical paradigm for robotics. We will make all our work
public, including the OWA toolkit, datasets of human-collected and
pseudo-labeled, and VAPT-trained models available at
https://worv-ai.github.io/d2e/