ChatPaper.aiChatPaper

Découverte de compétences en monde ouvert à partir de démonstrations non segmentées

Open-World Skill Discovery from Unsegmented Demonstrations

March 11, 2025
Auteurs: Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
cs.AI

Résumé

L'apprentissage de compétences dans des environnements ouverts est essentiel pour développer des agents capables de gérer une variété de tâches en combinant des compétences de base. Les vidéos de démonstration en ligne sont généralement longues mais non segmentées, ce qui les rend difficiles à segmenter et à étiqueter avec des identifiants de compétences. Contrairement aux méthodes existantes qui reposent sur l'échantillonnage de séquences ou l'étiquetage humain, nous avons développé une approche basée sur l'apprentissage auto-supervisé pour segmenter ces longues vidéos en une série de segments sémantiquement cohérents et alignés sur les compétences. En nous inspirant de la théorie cognitive humaine de la segmentation d'événements, nous introduisons la Détection de Limites de Compétences (SBD), un algorithme de segmentation temporelle de vidéos sans annotation. SBD détecte les limites de compétences dans une vidéo en exploitant les erreurs de prédiction d'un modèle de prédiction d'actions non conditionné pré-entraîné. Cette approche repose sur l'hypothèse qu'une augmentation significative de l'erreur de prédiction indique un changement dans la compétence exécutée. Nous avons évalué notre méthode dans Minecraft, un simulateur de monde ouvert riche avec de nombreuses vidéos de gameplay disponibles en ligne. Les segments générés par SBD ont amélioré les performances moyennes des politiques conditionnées de 63,7 % et 52,1 % sur des tâches de compétences atomiques à court terme, et celles de leurs agents hiérarchiques correspondants de 11,3 % et 20,8 % sur des tâches à long terme. Notre méthode peut exploiter les diverses vidéos YouTube pour entraîner des agents suivant des instructions. La page du projet est disponible à l'adresse https://craftjarvis.github.io/SkillDiscovery.
English
Learning skills in open-world environments is essential for developing agents capable of handling a variety of tasks by combining basic skills. Online demonstration videos are typically long but unsegmented, making them difficult to segment and label with skill identifiers. Unlike existing methods that rely on sequence sampling or human labeling, we have developed a self-supervised learning-based approach to segment these long videos into a series of semantic-aware and skill-consistent segments. Drawing inspiration from human cognitive event segmentation theory, we introduce Skill Boundary Detection (SBD), an annotation-free temporal video segmentation algorithm. SBD detects skill boundaries in a video by leveraging prediction errors from a pretrained unconditional action-prediction model. This approach is based on the assumption that a significant increase in prediction error indicates a shift in the skill being executed. We evaluated our method in Minecraft, a rich open-world simulator with extensive gameplay videos available online. Our SBD-generated segments improved the average performance of conditioned policies by 63.7% and 52.1% on short-term atomic skill tasks, and their corresponding hierarchical agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the diverse YouTube videos to train instruction-following agents. The project page can be found in https://craftjarvis.github.io/SkillDiscovery.
PDF53March 17, 2025