ChatPaper.aiChatPaper

Scoperta di Abilità in Mondi Aperti da Dimostrazioni Non Segmentate

Open-World Skill Discovery from Unsegmented Demonstrations

March 11, 2025
Autori: Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
cs.AI

Abstract

L'apprendimento di abilità in ambienti open-world è essenziale per sviluppare agenti in grado di gestire una varietà di compiti combinando abilità di base. I video dimostrativi online sono tipicamente lunghi ma non segmentati, rendendoli difficili da suddividere e etichettare con identificatori di abilità. A differenza dei metodi esistenti che si basano su campionamento sequenziale o etichettatura umana, abbiamo sviluppato un approccio basato sull'apprendimento auto-supervisionato per segmentare questi lunghi video in una serie di segmenti semanticamente consapevoli e coerenti con le abilità. Traendo ispirazione dalla teoria cognitiva umana sulla segmentazione degli eventi, introduciamo il Rilevamento dei Confini delle Abilità (Skill Boundary Detection, SBD), un algoritmo di segmentazione temporale dei video privo di annotazioni. SBD rileva i confini delle abilità in un video sfruttando gli errori di previsione di un modello pre-addestrato di previsione delle azioni incondizionata. Questo approccio si basa sull'assunzione che un aumento significativo dell'errore di previsione indichi un cambiamento nell'abilità in esecuzione. Abbiamo valutato il nostro metodo in Minecraft, un ricco simulatore open-world con ampi video di gameplay disponibili online. I segmenti generati da SBD hanno migliorato le prestazioni medie delle politiche condizionate del 63,7% e del 52,1% su compiti di abilità atomiche a breve termine, e i loro corrispondenti agenti gerarchici dell'11,3% e del 20,8% su compiti a lungo termine. Il nostro metodo può sfruttare i diversi video di YouTube per addestrare agenti che seguono istruzioni. La pagina del progetto è disponibile all'indirizzo https://craftjarvis.github.io/SkillDiscovery.
English
Learning skills in open-world environments is essential for developing agents capable of handling a variety of tasks by combining basic skills. Online demonstration videos are typically long but unsegmented, making them difficult to segment and label with skill identifiers. Unlike existing methods that rely on sequence sampling or human labeling, we have developed a self-supervised learning-based approach to segment these long videos into a series of semantic-aware and skill-consistent segments. Drawing inspiration from human cognitive event segmentation theory, we introduce Skill Boundary Detection (SBD), an annotation-free temporal video segmentation algorithm. SBD detects skill boundaries in a video by leveraging prediction errors from a pretrained unconditional action-prediction model. This approach is based on the assumption that a significant increase in prediction error indicates a shift in the skill being executed. We evaluated our method in Minecraft, a rich open-world simulator with extensive gameplay videos available online. Our SBD-generated segments improved the average performance of conditioned policies by 63.7% and 52.1% on short-term atomic skill tasks, and their corresponding hierarchical agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the diverse YouTube videos to train instruction-following agents. The project page can be found in https://craftjarvis.github.io/SkillDiscovery.
PDF53March 17, 2025