분할되지 않은 데모스트레이션에서의 오픈 월드 스킬 발견
Open-World Skill Discovery from Unsegmented Demonstrations
March 11, 2025
저자: Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
cs.AI
초록
오픈 월드 환경에서 스킬을 학습하는 것은 기본 스킬을 조합하여 다양한 작업을 처리할 수 있는 에이전트를 개발하는 데 필수적입니다. 온라인 데모 비디오는 일반적으로 길지만 분할되지 않아 스킬 식별자로 레이블을 지정하기 어렵습니다. 기존의 시퀀스 샘플링이나 인간 레이블링에 의존하는 방법과 달리, 우리는 이러한 긴 비디오를 의미론적으로 인지 가능하고 스킬 일관성이 있는 세그먼트로 분할하기 위해 자기 지도 학습 기반 접근법을 개발했습니다. 인간의 인지적 이벤트 분할 이론에서 영감을 받아, 우리는 Skill Boundary Detection(SBD)이라는 주석이 필요 없는 시간적 비디오 분할 알고리즘을 소개합니다. SBD는 사전 훈련된 무조건적 행동 예측 모델의 예측 오류를 활용하여 비디오에서 스킬 경계를 감지합니다. 이 접근법은 예측 오류의 급격한 증가가 실행 중인 스킬의 변화를 나타낸다는 가정에 기반합니다. 우리는 온라인에서 광범위한 게임플레이 비디오가 제공되는 풍부한 오픈 월드 시뮬레이터인 Minecraft에서 이 방법을 평가했습니다. 우리의 SBD로 생성된 세그먼트는 단기 원자적 스킬 작업에서 조건부 정책의 평균 성능을 63.7%와 52.1% 향상시켰고, 해당 계층적 에이전트는 장기 작업에서 11.3%와 20.8% 향상시켰습니다. 우리의 방법은 다양한 YouTube 비디오를 활용하여 명령 수행 에이전트를 훈련시킬 수 있습니다. 프로젝트 페이지는 https://craftjarvis.github.io/SkillDiscovery에서 확인할 수 있습니다.
English
Learning skills in open-world environments is essential for developing agents
capable of handling a variety of tasks by combining basic skills. Online
demonstration videos are typically long but unsegmented, making them difficult
to segment and label with skill identifiers. Unlike existing methods that rely
on sequence sampling or human labeling, we have developed a self-supervised
learning-based approach to segment these long videos into a series of
semantic-aware and skill-consistent segments. Drawing inspiration from human
cognitive event segmentation theory, we introduce Skill Boundary Detection
(SBD), an annotation-free temporal video segmentation algorithm. SBD detects
skill boundaries in a video by leveraging prediction errors from a pretrained
unconditional action-prediction model. This approach is based on the assumption
that a significant increase in prediction error indicates a shift in the skill
being executed. We evaluated our method in Minecraft, a rich open-world
simulator with extensive gameplay videos available online. Our SBD-generated
segments improved the average performance of conditioned policies by 63.7% and
52.1% on short-term atomic skill tasks, and their corresponding hierarchical
agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the
diverse YouTube videos to train instruction-following agents. The project page
can be found in https://craftjarvis.github.io/SkillDiscovery.Summary
AI-Generated Summary