Habilidad-X: Aprendizaje Continuo a partir de Experiencias y Habilidades en Agentes Multimodales

Resumen

Los agentes multimodales pueden ahora abordar tareas de razonamiento complejo con diversas herramientas, pero aún adolecen de un uso ineficiente de las mismas y una orquestación inflexible en entornos abiertos. Un desafío central es permitir que estos agentes mejoren continuamente sin actualizaciones de parámetros, aprendiendo de trayectorias pasadas. Identificamos dos formas complementarias de conocimiento reutilizable esenciales para este objetivo: las experiencias, que brindan guía concisa a nivel de acción para la selección de herramientas y la toma de decisiones, y las habilidades, que proporcionan guía estructurada a nivel de tarea para la planificación y el uso de herramientas. Con este fin, proponemos XSkill, un marco de doble flujo para el aprendizaje continuo a partir de experiencias y habilidades en agentes multimodales. XSkill fundamenta tanto la extracción como la recuperación de conocimiento en observaciones visuales. Durante la acumulación, XSkill destila y consolida experiencias y habilidades a partir de desarrollos multi-ruta mediante resúmenes basados en lo visual y crítica cruzada entre desarrollos. Durante la inferencia, recupera y adapta este conocimiento al contexto visual actual y retroalimenta el historial de uso a la acumulación para formar un bucle de aprendizaje continuo. Evaluado en cinco benchmarks de diversos dominios con cuatro modelos base, XSkill supera constante y sustancialmente tanto a las líneas base basadas solo en herramientas como a las basadas en aprendizaje. Un análisis más profundo revela que los dos flujos de conocimiento desempeñan roles complementarios al influir en los comportamientos de razonamiento de los agentes y muestran una generalización zero-shot superior.

English

Multimodal agents can now tackle complex reasoning tasks with diverse tools, yet they still suffer from inefficient tool use and inflexible orchestration in open-ended settings. A central challenge is enabling such agents to continually improve without parameter updates by learning from past trajectories. We identify two complementary forms of reusable knowledge essential for this goal: experiences, providing concise action-level guidance for tool selection and decision making, and skills, providing structured task-level guidance for planning and tool use. To this end, we propose XSkill, a dual-stream framework for continual learning from experience and skills in multimodal agents. XSkill grounds both knowledge extraction and retrieval in visual observations. During accumulation, XSkill distills and consolidates experiences and skills from multi-path rollouts via visually grounded summarization and cross-rollout critique. During inference, it retrieves and adapts this knowledge to the current visual context and feeds usage history back into accumulation to form a continual learning loop. Evaluated on five benchmarks across diverse domains with four backbone models, XSkill consistently and substantially outperforms both tool-only and learning-based baselines. Further analysis reveals that the two knowledge streams play complementary roles in influencing the reasoning behaviors of agents and show superior zero-shot generalization.

Habilidad-X: Aprendizaje Continuo a partir de Experiencias y Habilidades en Agentes Multimodales

XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Resumen

Support