ChatPaper.aiChatPaper

Обнаружение навыков в открытом мире на основе несегментированных демонстраций

Open-World Skill Discovery from Unsegmented Demonstrations

March 11, 2025
Авторы: Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
cs.AI

Аннотация

Обучение навыкам в открытых мирах крайне важно для разработки агентов, способных справляться с разнообразными задачами, комбинируя базовые навыки. Онлайн-демонстрационные видео обычно длинные и несегментированные, что затрудняет их разделение и маркировку идентификаторами навыков. В отличие от существующих методов, которые полагаются на выборку последовательностей или ручную разметку, мы разработали подход на основе самообучения для разделения таких длинных видео на серию семантически осмысленных и согласованных по навыкам сегментов. Вдохновляясь теорией когнитивного сегментирования событий у человека, мы представляем алгоритм временного сегментирования видео без аннотаций — Skill Boundary Detection (SBD). SBD обнаруживает границы навыков в видео, используя ошибки предсказания предварительно обученной модели безусловного предсказания действий. Этот подход основан на предположении, что значительное увеличение ошибки предсказания указывает на смену выполняемого навыка. Мы оценили наш метод в Minecraft, богатом симуляторе открытого мира с обширной базой игровых видео, доступных онлайн. Сегменты, сгенерированные SBD, улучшили среднюю производительность условных политик на 63,7% и 52,1% в задачах на краткосрочные атомарные навыки, а соответствующих иерархических агентов — на 11,3% и 20,8% в задачах с длительным горизонтом планирования. Наш метод позволяет использовать разнообразные видео с YouTube для обучения агентов, выполняющих инструкции. Страница проекта доступна по адресу https://craftjarvis.github.io/SkillDiscovery.
English
Learning skills in open-world environments is essential for developing agents capable of handling a variety of tasks by combining basic skills. Online demonstration videos are typically long but unsegmented, making them difficult to segment and label with skill identifiers. Unlike existing methods that rely on sequence sampling or human labeling, we have developed a self-supervised learning-based approach to segment these long videos into a series of semantic-aware and skill-consistent segments. Drawing inspiration from human cognitive event segmentation theory, we introduce Skill Boundary Detection (SBD), an annotation-free temporal video segmentation algorithm. SBD detects skill boundaries in a video by leveraging prediction errors from a pretrained unconditional action-prediction model. This approach is based on the assumption that a significant increase in prediction error indicates a shift in the skill being executed. We evaluated our method in Minecraft, a rich open-world simulator with extensive gameplay videos available online. Our SBD-generated segments improved the average performance of conditioned policies by 63.7% and 52.1% on short-term atomic skill tasks, and their corresponding hierarchical agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the diverse YouTube videos to train instruction-following agents. The project page can be found in https://craftjarvis.github.io/SkillDiscovery.

Summary

AI-Generated Summary

PDF53March 17, 2025