ChatPaper.aiChatPaper

D2E: Skalierung des Vision-Aktions-Pretrainings mit Desktop-Daten für den Transfer auf verkörperte KI

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

October 7, 2025
papers.authors: Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee
cs.AI

papers.abstract

Große Sprachmodelle nutzen internetgroße Textdaten, während verkörperte KI weiterhin durch die prohibitiv hohen Kosten der physischen Trajektoriensammlung eingeschränkt bleibt. Desktop-Umgebungen – insbesondere im Bereich der Spiele – bieten eine überzeugende Alternative: Sie ermöglichen umfangreiche sensomotorische Interaktionen und bewahren dabei die strukturierte Beobachtungs-Handlungs-Kopplung, die für verkörpertes Lernen essenziell ist. Wir präsentieren D2E (Desktop to Embodied AI), ein Framework, das zeigt, dass Desktop-Interaktionen als effektives Vorabtrainingssubstrat für verkörperte KI-Aufgaben in der Robotik dienen können. Im Gegensatz zu früheren Arbeiten, die domänenspezifisch blieben (z.B. VPT für Minecraft) oder Daten proprietär hielten (z.B. SIMA), etabliert D2E eine vollständige Pipeline von der skalierbaren Desktop-Datensammlung bis zum verifizierten Transfer in verkörperte Domänen. Unser Framework besteht aus drei Komponenten: (1) dem OWA-Toolkit, das diverse Desktop-Interaktionen in ein standardisiertes Format mit 152-facher Kompression vereinheitlicht, (2) dem Generalist-IDM, das durch zeitstempelbasierte Ereignisvorhersage eine starke Null-Shot-Generalisierung über unbekannte Spiele hinweg erreicht und damit internetgroße Pseudolabelung ermöglicht, und (3) VAPT, das Desktop-vorabtrainierte Repräsentationen auf physische Manipulation und Navigation überträgt. Mit über 1.300 Stunden an Daten (259 Stunden menschlicher Demonstrationen und über 1.000 Stunden pseudolabelter Spielzeit) erreichen wir eine Gesamterfolgsrate von 96,6 % bei LIBERO-Manipulation und 83,3 % bei CANVAS-Navigation. Dies bestätigt, dass sensomotorische Grundlagen in digitalen Interaktionen ausreichende Invarianz aufweisen, um sinnvoll auf physische verkörperte Aufgaben übertragen zu werden, und etabliert Desktop-Vorabtraining als praktisches Paradigma für die Robotik. Wir werden unsere gesamte Arbeit öffentlich zugänglich machen, einschließlich des OWA-Toolkits, der Datensätze mit menschlich gesammelten und pseudolabelten Daten sowie der VAPT-trainierten Modelle unter https://worv-ai.github.io/d2e/.
English
Large language models leverage internet-scale text data, yet embodied AI remains constrained by the prohibitive costs of physical trajectory collection. Desktop environments -- particularly gaming -- offer a compelling alternative: they provide rich sensorimotor interactions at scale while maintaining the structured observation-action coupling essential for embodied learning. We present D2E (Desktop to Embodied AI), a framework that demonstrates desktop interactions can serve as an effective pretraining substrate for robotics embodied AI tasks. Unlike prior work that remained domain-specific (e.g., VPT for Minecraft) or kept data proprietary (e.g., SIMA), D2E establishes a complete pipeline from scalable desktop data collection to verified transfer in embodied domains. Our framework comprises three components: (1) the OWA Toolkit that unifies diverse desktop interactions into a standardized format with 152x compression, (2) the Generalist-IDM that achieves strong zero-shot generalization across unseen games through timestamp-based event prediction, enabling internet-scale pseudo-labeling, and (3) VAPT that transfers desktop-pretrained representations to physical manipulation and navigation. Using 1.3K+ hours of data (259 hours of human demonstrations, and 1K+ hours of pseudo-labeled gameplay), we achieve a total of 96.6% success rate on LIBERO manipulation and 83.3% on CANVAS navigation benchmarks. This validates that sensorimotor primitives in digital interactions exhibit sufficient invariance to transfer meaningfully to physical embodied tasks, establishing desktop pretraining as a practical paradigm for robotics. We will make all our work public, including the OWA toolkit, datasets of human-collected and pseudo-labeled, and VAPT-trained models available at https://worv-ai.github.io/d2e/
PDF1293October 13, 2025