D2E: デスクトップデータを用いた視覚-行動事前学習のスケーリングとエンボディドAIへの転移
D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI
October 7, 2025
著者: Suwhan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee
cs.AI
要旨
大規模言語モデルはインターネット規模のテキストデータを活用していますが、エンボディドAIは物理的な軌跡データ収集の莫大なコストに制約されています。デスクトップ環境、特にゲームは魅力的な代替手段を提供します。これらは、エンボディド学習に不可欠な構造化された観測-行動の結合を維持しながら、大規模な感覚運動相互作用を実現します。本論文では、デスクトップ環境での相互作用がロボティクスのエンボディドAIタスクの効果的な事前学習基盤として機能することを示すD2E(Desktop to Embodied AI)フレームワークを提案します。従来の研究が特定のドメインに限定されていた(例:Minecraft向けVPT)か、データを非公開にしていた(例:SIMA)のに対し、D2Eはスケーラブルなデスクトップデータ収集からエンボディドドメインでの検証済み転移までの完全なパイプラインを確立します。本フレームワークは3つのコンポーネントで構成されます:(1) 多様なデスクトップ相互作用を152倍の圧縮率で標準化フォーマットに統合するOWA Toolkit、(2) タイムスタンプベースのイベント予測を通じて未見のゲーム間での強力なゼロショット汎化を実現し、インターネット規模の疑似ラベリングを可能にするGeneralist-IDM、(3) デスクトップ事前学習済み表現を物理的な操作とナビゲーションに転移するVAPT。1,300時間以上のデータ(人間によるデモンストレーション259時間、疑似ラベル付きゲームプレイ1,000時間以上)を使用し、LIBERO操作タスクで96.6%、CANVASナビゲーションベンチマークで83.3%の成功率を達成しました。これは、デジタル相互作用における感覚運動プリミティブが物理的なエンボディドタスクに有意義に転移する十分な不変性を示しており、デスクトップ事前学習がロボティクスの実用的なパラダイムであることを確立しています。OWAツールキット、人間が収集したデータセットと疑似ラベル付きデータセット、VAPTで学習したモデルを含むすべての成果物を公開します。詳細はhttps://worv-ai.github.io/d2e/をご覧ください。
English
Large language models leverage internet-scale text data, yet embodied AI
remains constrained by the prohibitive costs of physical trajectory collection.
Desktop environments -- particularly gaming -- offer a compelling alternative:
they provide rich sensorimotor interactions at scale while maintaining the
structured observation-action coupling essential for embodied learning. We
present D2E (Desktop to Embodied AI), a framework that demonstrates desktop
interactions can serve as an effective pretraining substrate for robotics
embodied AI tasks. Unlike prior work that remained domain-specific (e.g., VPT
for Minecraft) or kept data proprietary (e.g., SIMA), D2E establishes a
complete pipeline from scalable desktop data collection to verified transfer in
embodied domains. Our framework comprises three components: (1) the OWA Toolkit
that unifies diverse desktop interactions into a standardized format with 152x
compression, (2) the Generalist-IDM that achieves strong zero-shot
generalization across unseen games through timestamp-based event prediction,
enabling internet-scale pseudo-labeling, and (3) VAPT that transfers
desktop-pretrained representations to physical manipulation and navigation.
Using 1.3K+ hours of data (259 hours of human demonstrations, and 1K+ hours of
pseudo-labeled gameplay), we achieve a total of 96.6% success rate on LIBERO
manipulation and 83.3% on CANVAS navigation benchmarks. This validates that
sensorimotor primitives in digital interactions exhibit sufficient invariance
to transfer meaningfully to physical embodied tasks, establishing desktop
pretraining as a practical paradigm for robotics. We will make all our work
public, including the OWA toolkit, datasets of human-collected and
pseudo-labeled, and VAPT-trained models available at
https://worv-ai.github.io/d2e/