ChatPaper.aiChatPaper

Descoberta de Habilidades em Mundo Aberto a partir de Demonstrações Não Segmentadas

Open-World Skill Discovery from Unsegmented Demonstrations

March 11, 2025
Autores: Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
cs.AI

Resumo

Aprender habilidades em ambientes de mundo aberto é essencial para desenvolver agentes capazes de lidar com uma variedade de tarefas combinando habilidades básicas. Vídeos de demonstração online são tipicamente longos, mas não segmentados, o que torna difícil segmentá-los e rotulá-los com identificadores de habilidades. Diferente dos métodos existentes que dependem de amostragem de sequência ou rotulação humana, desenvolvemos uma abordagem baseada em aprendizado auto-supervisionado para segmentar esses vídeos longos em uma série de segmentos semanticamente conscientes e consistentes em termos de habilidades. Inspirados pela teoria de segmentação de eventos cognitivos humanos, introduzimos o Detecção de Limites de Habilidades (SBD, do inglês *Skill Boundary Detection*), um algoritmo de segmentação temporal de vídeos sem necessidade de anotação. O SBD detecta limites de habilidades em um vídeo aproveitando erros de previsão de um modelo de previsão de ação incondicional pré-treinado. Essa abordagem é baseada na suposição de que um aumento significativo no erro de previsão indica uma mudança na habilidade que está sendo executada. Avaliamos nosso método no Minecraft, um simulador de mundo aberto rico com extensos vídeos de jogabilidade disponíveis online. Nossos segmentos gerados pelo SBD melhoraram o desempenho médio de políticas condicionadas em 63,7% e 52,1% em tarefas de habilidades atômicas de curto prazo, e seus agentes hierárquicos correspondentes em 11,3% e 20,8% em tarefas de longo prazo. Nosso método pode aproveitar os diversos vídeos do YouTube para treinar agentes que seguem instruções. A página do projeto pode ser encontrada em https://craftjarvis.github.io/SkillDiscovery.
English
Learning skills in open-world environments is essential for developing agents capable of handling a variety of tasks by combining basic skills. Online demonstration videos are typically long but unsegmented, making them difficult to segment and label with skill identifiers. Unlike existing methods that rely on sequence sampling or human labeling, we have developed a self-supervised learning-based approach to segment these long videos into a series of semantic-aware and skill-consistent segments. Drawing inspiration from human cognitive event segmentation theory, we introduce Skill Boundary Detection (SBD), an annotation-free temporal video segmentation algorithm. SBD detects skill boundaries in a video by leveraging prediction errors from a pretrained unconditional action-prediction model. This approach is based on the assumption that a significant increase in prediction error indicates a shift in the skill being executed. We evaluated our method in Minecraft, a rich open-world simulator with extensive gameplay videos available online. Our SBD-generated segments improved the average performance of conditioned policies by 63.7% and 52.1% on short-term atomic skill tasks, and their corresponding hierarchical agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the diverse YouTube videos to train instruction-following agents. The project page can be found in https://craftjarvis.github.io/SkillDiscovery.

Summary

AI-Generated Summary

PDF53March 17, 2025