ChatPaper.aiChatPaper

未分割デモンストレーションからのオープンワールドスキル発見

Open-World Skill Discovery from Unsegmented Demonstrations

March 11, 2025
著者: Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
cs.AI

要旨

オープンワールド環境におけるスキルの学習は、基本的なスキルを組み合わせて多様なタスクを処理できるエージェントを開発するために不可欠です。オンラインのデモンストレーションビデオは通常長く、セグメント化されていないため、スキル識別子でセグメント化しラベル付けすることが困難です。既存の手法がシーケンスサンプリングや人間によるラベル付けに依存しているのとは異なり、我々は自己教師あり学習に基づくアプローチを開発し、これらの長いビデオを一連の意味を意識したスキル一貫性のあるセグメントに分割します。人間の認知イベントセグメンテーション理論に着想を得て、アノテーションフリーの時間的ビデオセグメンテーションアルゴリズムであるスキル境界検出(SBD)を導入しました。SBDは、事前に訓練された無条件のアクション予測モデルからの予測誤差を活用して、ビデオ内のスキル境界を検出します。このアプローチは、予測誤差の大幅な増加が実行されているスキルの変化を示すという仮定に基づいています。我々は、豊富なオープンワールドシミュレータであり、オンラインで広範なゲームプレイビデオが利用可能なMinecraftでこの手法を評価しました。SBDによって生成されたセグメントは、短期のアトミックスキルタスクにおける条件付きポリシーの平均性能を63.7%および52.1%向上させ、それに対応する階層型エージェントの長期的タスクにおける性能を11.3%および20.8%向上させました。我々の手法は、多様なYouTubeビデオを活用して指示追従エージェントを訓練することができます。プロジェクトページはhttps://craftjarvis.github.io/SkillDiscoveryで確認できます。
English
Learning skills in open-world environments is essential for developing agents capable of handling a variety of tasks by combining basic skills. Online demonstration videos are typically long but unsegmented, making them difficult to segment and label with skill identifiers. Unlike existing methods that rely on sequence sampling or human labeling, we have developed a self-supervised learning-based approach to segment these long videos into a series of semantic-aware and skill-consistent segments. Drawing inspiration from human cognitive event segmentation theory, we introduce Skill Boundary Detection (SBD), an annotation-free temporal video segmentation algorithm. SBD detects skill boundaries in a video by leveraging prediction errors from a pretrained unconditional action-prediction model. This approach is based on the assumption that a significant increase in prediction error indicates a shift in the skill being executed. We evaluated our method in Minecraft, a rich open-world simulator with extensive gameplay videos available online. Our SBD-generated segments improved the average performance of conditioned policies by 63.7% and 52.1% on short-term atomic skill tasks, and their corresponding hierarchical agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the diverse YouTube videos to train instruction-following agents. The project page can be found in https://craftjarvis.github.io/SkillDiscovery.

Summary

AI-Generated Summary

PDF53March 17, 2025