Open-World Vaardigheidsontdekking uit Ongesegmenteerde Demonstraties
Open-World Skill Discovery from Unsegmented Demonstrations
March 11, 2025
Auteurs: Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
cs.AI
Samenvatting
Het aanleren van vaardigheden in open-wereldomgevingen is essentieel voor het ontwikkelen van agents die in staat zijn om een verscheidenheid aan taken uit te voeren door basisvaardigheden te combineren. Online demonstratievideo's zijn doorgaans lang maar ongesegmenteerd, wat het moeilijk maakt om ze te segmenteren en te labelen met vaardigheidsidentificatoren. In tegenstelling tot bestaande methoden die vertrouwen op sequentiële steekproeven of menselijke labeling, hebben wij een zelfgesuperviseerde leerbenadering ontwikkeld om deze lange video's te segmenteren in een reeks semantisch bewuste en vaardigheidsconsistente segmenten. Geïnspireerd door de cognitieve gebeurtenissegmentatietheorie van de mens, introduceren we Skill Boundary Detection (SBD), een annotatievrij tijdelijk videosegmentatiealgoritme. SBD detecteert vaardigheidsgrenzen in een video door gebruik te maken van voorspellingsfouten van een vooraf getraind onvoorwaardelijk actievoorspellingsmodel. Deze benadering is gebaseerd op de veronderstelling dat een significante toename in voorspellingsfout wijst op een verandering in de uitgevoerde vaardigheid. We hebben onze methode geëvalueerd in Minecraft, een rijke open-wereldsimulator met uitgebreide gameplayvideo's die online beschikbaar zijn. Onze door SBD gegenereerde segmenten verbeterden de gemiddelde prestaties van geconditioneerde beleidsregels met 63,7% en 52,1% op kortetermijn atomische vaardigheidstaken, en hun corresponderende hiërarchische agents met 11,3% en 20,8% op langetermijntaken. Onze methode kan de diverse YouTube-video's benutten om instructievolgende agents te trainen. De projectpagina is te vinden op https://craftjarvis.github.io/SkillDiscovery.
English
Learning skills in open-world environments is essential for developing agents
capable of handling a variety of tasks by combining basic skills. Online
demonstration videos are typically long but unsegmented, making them difficult
to segment and label with skill identifiers. Unlike existing methods that rely
on sequence sampling or human labeling, we have developed a self-supervised
learning-based approach to segment these long videos into a series of
semantic-aware and skill-consistent segments. Drawing inspiration from human
cognitive event segmentation theory, we introduce Skill Boundary Detection
(SBD), an annotation-free temporal video segmentation algorithm. SBD detects
skill boundaries in a video by leveraging prediction errors from a pretrained
unconditional action-prediction model. This approach is based on the assumption
that a significant increase in prediction error indicates a shift in the skill
being executed. We evaluated our method in Minecraft, a rich open-world
simulator with extensive gameplay videos available online. Our SBD-generated
segments improved the average performance of conditioned policies by 63.7% and
52.1% on short-term atomic skill tasks, and their corresponding hierarchical
agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the
diverse YouTube videos to train instruction-following agents. The project page
can be found in https://craftjarvis.github.io/SkillDiscovery.Summary
AI-Generated Summary