D2E: 데스크톱 데이터 기반 시각-행동 사전 학습 확장 및 임보디드 AI 전이
D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI
October 7, 2025
저자: Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee
cs.AI
초록
대규모 언어 모델은 인터넷 규모의 텍스트 데이터를 활용하지만, 물리적 궤적 수집의 과도한 비용으로 인해 구체화된 AI는 여전히 제약을 받고 있습니다. 데스크톱 환경, 특히 게임은 이러한 문제에 대한 매력적인 대안을 제공합니다: 이들은 구조화된 관찰-행동 결합을 유지하면서도 대규모의 풍부한 감각운동 상호작용을 제공합니다. 우리는 D2E(Desktop to Embodied AI) 프레임워크를 제시하며, 데스크톱 상호작용이 로봇 공학의 구체화된 AI 작업을 위한 효과적인 사전 학습 기반으로 사용될 수 있음을 입증합니다. 이전 연구들이 특정 도메인에 국한되거나(예: Minecraft용 VPT) 데이터를 독점적으로 유지한 것(예: SIMA)과 달리, D2E는 확장 가능한 데스크톱 데이터 수집부터 구체화된 도메인에서의 검증된 전이까지 완전한 파이프라인을 구축합니다. 우리의 프레임워크는 세 가지 구성 요소로 이루어져 있습니다: (1) 다양한 데스크톱 상호작용을 표준화된 형식으로 통합하고 152배 압축을 제공하는 OWA 툴킷, (2) 타임스탬프 기반 이벤트 예측을 통해 보지 못한 게임들에서도 강력한 제로샷 일반화를 달성하고 인터넷 규모의 가짜 라벨링을 가능하게 하는 Generalist-IDM, 그리고 (3) 데스크톱 사전 학습된 표현을 물리적 조작 및 탐색으로 전이하는 VAPT. 1,300시간 이상의 데이터(259시간의 인간 데모, 1,000시간 이상의 가짜 라벨링된 게임플레이)를 사용하여, 우리는 LIBERO 조작에서 96.6%, CANVAS 탐색 벤치마크에서 83.3%의 성공률을 달성했습니다. 이는 디지털 상호작용의 감각운동 기본 요소들이 물리적 구체화된 작업으로 의미 있게 전이될 만큼 충분한 불변성을 보인다는 것을 검증하며, 데스크톱 사전 학습을 로봇 공학을 위한 실용적인 패러다임으로 확립합니다. 우리는 OWA 툴킷, 인간이 수집한 데이터셋, 가짜 라벨링된 데이터셋, 그리고 VAPT로 학습된 모델을 포함한 모든 작업을 공개할 예정이며, 이는 https://worv-ai.github.io/d2e/에서 확인할 수 있습니다.
English
Large language models leverage internet-scale text data, yet embodied AI
remains constrained by the prohibitive costs of physical trajectory collection.
Desktop environments -- particularly gaming -- offer a compelling alternative:
they provide rich sensorimotor interactions at scale while maintaining the
structured observation-action coupling essential for embodied learning. We
present D2E (Desktop to Embodied AI), a framework that demonstrates desktop
interactions can serve as an effective pretraining substrate for robotics
embodied AI tasks. Unlike prior work that remained domain-specific (e.g., VPT
for Minecraft) or kept data proprietary (e.g., SIMA), D2E establishes a
complete pipeline from scalable desktop data collection to verified transfer in
embodied domains. Our framework comprises three components: (1) the OWA Toolkit
that unifies diverse desktop interactions into a standardized format with 152x
compression, (2) the Generalist-IDM that achieves strong zero-shot
generalization across unseen games through timestamp-based event prediction,
enabling internet-scale pseudo-labeling, and (3) VAPT that transfers
desktop-pretrained representations to physical manipulation and navigation.
Using 1.3K+ hours of data (259 hours of human demonstrations, and 1K+ hours of
pseudo-labeled gameplay), we achieve a total of 96.6% success rate on LIBERO
manipulation and 83.3% on CANVAS navigation benchmarks. This validates that
sensorimotor primitives in digital interactions exhibit sufficient invariance
to transfer meaningfully to physical embodied tasks, establishing desktop
pretraining as a practical paradigm for robotics. We will make all our work
public, including the OWA toolkit, datasets of human-collected and
pseudo-labeled, and VAPT-trained models available at
https://worv-ai.github.io/d2e/