ChatPaper.aiChatPaper

Descubrimiento de Habilidades en Mundo Abierto a partir de Demostraciones no Segmentadas

Open-World Skill Discovery from Unsegmented Demonstrations

March 11, 2025
Autores: Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang
cs.AI

Resumen

El aprendizaje de habilidades en entornos de mundo abierto es esencial para desarrollar agentes capaces de manejar una variedad de tareas mediante la combinación de habilidades básicas. Los videos de demostración en línea suelen ser largos pero no segmentados, lo que dificulta su división y etiquetado con identificadores de habilidades. A diferencia de los métodos existentes que dependen del muestreo de secuencias o del etiquetado humano, hemos desarrollado un enfoque basado en aprendizaje autosupervisado para segmentar estos videos largos en una serie de segmentos semánticamente conscientes y consistentes con las habilidades. Inspirándonos en la teoría de segmentación de eventos cognitivos humanos, presentamos Skill Boundary Detection (SBD), un algoritmo de segmentación temporal de videos que no requiere anotaciones. SBD detecta los límites de las habilidades en un video aprovechando los errores de predicción de un modelo preentrenado de predicción de acciones incondicional. Este enfoque se basa en la suposición de que un aumento significativo en el error de predicción indica un cambio en la habilidad que se está ejecutando. Evaluamos nuestro método en Minecraft, un simulador de mundo abierto rico en contenido con una amplia disponibilidad de videos de juego en línea. Los segmentos generados por SBD mejoraron el rendimiento promedio de las políticas condicionadas en un 63.7% y 52.1% en tareas de habilidades atómicas a corto plazo, y en un 11.3% y 20.8% para sus agentes jerárquicos correspondientes en tareas de largo alcance. Nuestro método puede aprovechar los diversos videos de YouTube para entrenar agentes que siguen instrucciones. La página del proyecto se puede encontrar en https://craftjarvis.github.io/SkillDiscovery.
English
Learning skills in open-world environments is essential for developing agents capable of handling a variety of tasks by combining basic skills. Online demonstration videos are typically long but unsegmented, making them difficult to segment and label with skill identifiers. Unlike existing methods that rely on sequence sampling or human labeling, we have developed a self-supervised learning-based approach to segment these long videos into a series of semantic-aware and skill-consistent segments. Drawing inspiration from human cognitive event segmentation theory, we introduce Skill Boundary Detection (SBD), an annotation-free temporal video segmentation algorithm. SBD detects skill boundaries in a video by leveraging prediction errors from a pretrained unconditional action-prediction model. This approach is based on the assumption that a significant increase in prediction error indicates a shift in the skill being executed. We evaluated our method in Minecraft, a rich open-world simulator with extensive gameplay videos available online. Our SBD-generated segments improved the average performance of conditioned policies by 63.7% and 52.1% on short-term atomic skill tasks, and their corresponding hierarchical agents by 11.3% and 20.8% on long-horizon tasks. Our method can leverage the diverse YouTube videos to train instruction-following agents. The project page can be found in https://craftjarvis.github.io/SkillDiscovery.

Summary

AI-Generated Summary

PDF53March 17, 2025