Обнаружение навыков в открытом мире на основе несегментированных демонстраций
Open-World Skill Discovery from Unsegmented Demonstrations
March 11, 2025
Авторы: Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
cs.AI
Аннотация
Обучение навыкам в открытых мирах крайне важно для разработки агентов, способных справляться с разнообразными задачами, комбинируя базовые навыки. Онлайн-демонстрационные видео обычно длинные и несегментированные, что затрудняет их разделение и маркировку идентификаторами навыков. В отличие от существующих методов, которые полагаются на выборку последовательностей или ручную разметку, мы разработали подход на основе самообучения для разделения таких длинных видео на серию семантически осмысленных и согласованных по навыкам сегментов. Вдохновляясь теорией когнитивного сегментирования событий у человека, мы представляем алгоритм временного сегментирования видео без аннотаций — Skill Boundary Detection (SBD). SBD обнаруживает границы навыков в видео, используя ошибки предсказания предварительно обученной модели безусловного предсказания действий. Этот подход основан на предположении, что значительное увеличение ошибки предсказания указывает на смену выполняемого навыка. Мы оценили наш метод в Minecraft, богатом симуляторе открытого мира с обширной базой игровых видео, доступных онлайн. Сегменты, сгенерированные SBD, улучшили среднюю производительность условных политик на 63,7% и 52,1% в задачах на краткосрочные атомарные навыки, а соответствующих иерархических агентов — на 11,3% и 20,8% в задачах с длительным горизонтом планирования. Наш метод позволяет использовать разнообразные видео с YouTube для обучения агентов, выполняющих инструкции. Страница проекта доступна по адресу https://craftjarvis.github.io/SkillDiscovery.
English
Learning skills in open-world environments is essential for developing agents
capable of handling a variety of tasks by combining basic skills. Online
demonstration videos are typically long but unsegmented, making them difficult
to segment and label with skill identifiers. Unlike existing methods that rely
on sequence sampling or human labeling, we have developed a self-supervised
learning-based approach to segment these long videos into a series of
semantic-aware and skill-consistent segments. Drawing inspiration from human
cognitive event segmentation theory, we introduce Skill Boundary Detection
(SBD), an annotation-free temporal video segmentation algorithm. SBD detects
skill boundaries in a video by leveraging prediction errors from a pretrained
unconditional action-prediction model. This approach is based on the assumption
that a significant increase in prediction error indicates a shift in the skill
being executed. We evaluated our method in Minecraft, a rich open-world
simulator with extensive gameplay videos available online. Our SBD-generated
segments improved the average performance of conditioned policies by 63.7% and
52.1% on short-term atomic skill tasks, and their corresponding hierarchical
agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the
diverse YouTube videos to train instruction-following agents. The project page
can be found in https://craftjarvis.github.io/SkillDiscovery.Summary
AI-Generated Summary