ChatPaper.aiChatPaper

D2E : Mise à l'échelle du pré-entraînement vision-action sur des données de bureau pour le transfert vers l'IA incarnée

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

October 7, 2025
papers.authors: Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee
cs.AI

papers.abstract

Les grands modèles de langage exploitent des données textuelles à l'échelle d'Internet, mais l'IA incarnée reste limitée par les coûts prohibitifs de la collecte de trajectoires physiques. Les environnements de bureau — en particulier les jeux vidéo — offrent une alternative convaincante : ils permettent des interactions sensori-motrices riches à grande échelle tout en maintenant le couplage structuré observation-action essentiel pour l'apprentissage incarné. Nous présentons D2E (Desktop to Embodied AI), un cadre qui démontre que les interactions sur ordinateur peuvent servir de substrat de pré-entraînement efficace pour les tâches d'IA incarnée en robotique. Contrairement aux travaux antérieurs qui restaient spécifiques à un domaine (par exemple, VPT pour Minecraft) ou gardaient les données propriétaires (par exemple, SIMA), D2E établit un pipeline complet allant de la collecte de données à grande échelle sur ordinateur au transfert vérifié dans des domaines incarnés. Notre cadre comprend trois composants : (1) l'OWA Toolkit, qui unifie diverses interactions de bureau dans un format standardisé avec une compression de 152x, (2) le Generalist-IDM, qui atteint une forte généralisation zero-shot à travers des jeux inconnus grâce à la prédiction d'événements basée sur des timestamps, permettant un étiquetage pseudo-supervisé à l'échelle d'Internet, et (3) VAPT, qui transfère les représentations pré-entraînées sur ordinateur à des tâches de manipulation et de navigation physiques. En utilisant plus de 1 300 heures de données (259 heures de démonstrations humaines et plus de 1 000 heures de gameplay pseudo-étiqueté), nous obtenons un taux de réussite total de 96,6 % sur le benchmark de manipulation LIBERO et de 83,3 % sur celui de navigation CANVAS. Cela valide que les primitives sensori-motrices dans les interactions numériques présentent une invariance suffisante pour se transférer de manière significative à des tâches physiques incarnées, établissant ainsi le pré-entraînement sur ordinateur comme un paradigme pratique pour la robotique. Nous rendrons public l'intégralité de notre travail, y compris l'OWA Toolkit, les jeux de données collectés par des humains et pseudo-étiquetés, ainsi que les modèles entraînés avec VAPT, disponibles sur https://worv-ai.github.io/d2e/.
English
Large language models leverage internet-scale text data, yet embodied AI remains constrained by the prohibitive costs of physical trajectory collection. Desktop environments -- particularly gaming -- offer a compelling alternative: they provide rich sensorimotor interactions at scale while maintaining the structured observation-action coupling essential for embodied learning. We present D2E (Desktop to Embodied AI), a framework that demonstrates desktop interactions can serve as an effective pretraining substrate for robotics embodied AI tasks. Unlike prior work that remained domain-specific (e.g., VPT for Minecraft) or kept data proprietary (e.g., SIMA), D2E establishes a complete pipeline from scalable desktop data collection to verified transfer in embodied domains. Our framework comprises three components: (1) the OWA Toolkit that unifies diverse desktop interactions into a standardized format with 152x compression, (2) the Generalist-IDM that achieves strong zero-shot generalization across unseen games through timestamp-based event prediction, enabling internet-scale pseudo-labeling, and (3) VAPT that transfers desktop-pretrained representations to physical manipulation and navigation. Using 1.3K+ hours of data (259 hours of human demonstrations, and 1K+ hours of pseudo-labeled gameplay), we achieve a total of 96.6% success rate on LIBERO manipulation and 83.3% on CANVAS navigation benchmarks. This validates that sensorimotor primitives in digital interactions exhibit sufficient invariance to transfer meaningfully to physical embodied tasks, establishing desktop pretraining as a practical paradigm for robotics. We will make all our work public, including the OWA toolkit, datasets of human-collected and pseudo-labeled, and VAPT-trained models available at https://worv-ai.github.io/d2e/
PDF1293October 13, 2025