ChatPaper.aiChatPaper

D2E: Escalando el preentrenamiento visión-acción con datos de escritorio para su transferencia a la IA encarnada

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

October 7, 2025
Autores: Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee
cs.AI

Resumen

Los grandes modelos de lenguaje aprovechan datos de texto a escala de internet, sin embargo, la IA encarnada sigue limitada por los costos prohibitivos de la recopilación de trayectorias físicas. Los entornos de escritorio —particularmente los videojuegos— ofrecen una alternativa convincente: proporcionan interacciones sensoriomotoras ricas a escala mientras mantienen el acoplamiento estructurado entre observación y acción, esencial para el aprendizaje encarnado. Presentamos D2E (Desktop to Embodied AI), un marco que demuestra que las interacciones en escritorio pueden servir como un sustrato efectivo de preentrenamiento para tareas de IA encarnada en robótica. A diferencia de trabajos previos que se mantuvieron específicos de dominio (por ejemplo, VPT para Minecraft) o mantuvieron los datos como propiedad privada (por ejemplo, SIMA), D2E establece una canalización completa desde la recopilación escalable de datos en escritorio hasta la transferencia verificada en dominios encarnados. Nuestro marco consta de tres componentes: (1) el OWA Toolkit, que unifica diversas interacciones de escritorio en un formato estandarizado con una compresión de 152x, (2) el Generalist-IDM, que logra una fuerte generalización zero-shot en juegos no vistos mediante la predicción de eventos basada en marcas de tiempo, permitiendo el etiquetado pseudo-masivo a escala de internet, y (3) VAPT, que transfiere representaciones preentrenadas en escritorio a tareas de manipulación física y navegación. Utilizando más de 1,300 horas de datos (259 horas de demostraciones humanas y más de 1,000 horas de gameplay pseudo-etiquetado), logramos una tasa de éxito total del 96.6% en el benchmark de manipulación LIBERO y del 83.3% en el de navegación CANVAS. Esto valida que los primitivos sensoriomotores en interacciones digitales exhiben suficiente invarianza para transferirse de manera significativa a tareas físicas encarnadas, estableciendo el preentrenamiento en escritorio como un paradigma práctico para la robótica. Haremos público todo nuestro trabajo, incluyendo el OWA Toolkit, los conjuntos de datos recopilados por humanos y pseudo-etiquetados, y los modelos entrenados con VAPT, disponibles en https://worv-ai.github.io/d2e/.
English
Large language models leverage internet-scale text data, yet embodied AI remains constrained by the prohibitive costs of physical trajectory collection. Desktop environments -- particularly gaming -- offer a compelling alternative: they provide rich sensorimotor interactions at scale while maintaining the structured observation-action coupling essential for embodied learning. We present D2E (Desktop to Embodied AI), a framework that demonstrates desktop interactions can serve as an effective pretraining substrate for robotics embodied AI tasks. Unlike prior work that remained domain-specific (e.g., VPT for Minecraft) or kept data proprietary (e.g., SIMA), D2E establishes a complete pipeline from scalable desktop data collection to verified transfer in embodied domains. Our framework comprises three components: (1) the OWA Toolkit that unifies diverse desktop interactions into a standardized format with 152x compression, (2) the Generalist-IDM that achieves strong zero-shot generalization across unseen games through timestamp-based event prediction, enabling internet-scale pseudo-labeling, and (3) VAPT that transfers desktop-pretrained representations to physical manipulation and navigation. Using 1.3K+ hours of data (259 hours of human demonstrations, and 1K+ hours of pseudo-labeled gameplay), we achieve a total of 96.6% success rate on LIBERO manipulation and 83.3% on CANVAS navigation benchmarks. This validates that sensorimotor primitives in digital interactions exhibit sufficient invariance to transfer meaningfully to physical embodied tasks, establishing desktop pretraining as a practical paradigm for robotics. We will make all our work public, including the OWA toolkit, datasets of human-collected and pseudo-labeled, and VAPT-trained models available at https://worv-ai.github.io/d2e/
PDF1293October 13, 2025