XSkill: Apprendimento Continuo da Esperienze e Abilità in Agenti Multimodali

Abstract

Gli agenti multimodali possono ora affrontare compiti di ragionamento complessi con strumenti diversificati, ma continuano a soffrire di un uso inefficiente degli strumenti e di un'orchestrazione inflessibile in contesti aperti. Una sfida centrale è permettere a tali agenti di migliorare continuamente senza aggiornamenti parametrici, apprendendo dalle traiettorie passate. Identifichiamo due forme complementari di conoscenza riutilizzabile essenziali per questo obiettivo: le esperienze, che forniscono una guida concisa a livello di azione per la selezione degli strumenti e la presa di decisioni, e le abilità, che forniscono una guida strutturata a livello di compito per la pianificazione e l'uso degli strumenti. A tal fine, proponiamo XSkill, un framework a doppio flusso per l'apprendimento continuo da esperienze e abilità in agenti multimodali. XSkill ancoria sia l'estrazione che il recupero della conoscenza alle osservazioni visive. Durante la fase di accumulo, XSkill distilla e consolida esperienze e abilità da rollout multi-percorso tramite una sintesi e una valutazione incrociata ancorate al visivo. Durante l'inferenza, recupera e adatta questa conoscenza al contesto visivo corrente e reinvia la cronologia d'uso nell'accumulo per formare un ciclo di apprendimento continuo. Valutato su cinque benchmark in diversi domini con quattro modelli di base, XSkill supera costantemente e sostanzialmente sia i baseline basati solo su strumenti che quelli basati sull'apprendimento. Un'analisi più approfondita rivela che i due flussi di conoscenza svolgono ruoli complementari nell'influenzare i comportamenti di ragionamento degli agenti e mostrano una generalizzazione zero-shot superiore.

English

Multimodal agents can now tackle complex reasoning tasks with diverse tools, yet they still suffer from inefficient tool use and inflexible orchestration in open-ended settings. A central challenge is enabling such agents to continually improve without parameter updates by learning from past trajectories. We identify two complementary forms of reusable knowledge essential for this goal: experiences, providing concise action-level guidance for tool selection and decision making, and skills, providing structured task-level guidance for planning and tool use. To this end, we propose XSkill, a dual-stream framework for continual learning from experience and skills in multimodal agents. XSkill grounds both knowledge extraction and retrieval in visual observations. During accumulation, XSkill distills and consolidates experiences and skills from multi-path rollouts via visually grounded summarization and cross-rollout critique. During inference, it retrieves and adapts this knowledge to the current visual context and feeds usage history back into accumulation to form a continual learning loop. Evaluated on five benchmarks across diverse domains with four backbone models, XSkill consistently and substantially outperforms both tool-only and learning-based baselines. Further analysis reveals that the two knowledge streams play complementary roles in influencing the reasoning behaviors of agents and show superior zero-shot generalization.

XSkill: Apprendimento Continuo da Esperienze e Abilità in Agenti Multimodali

XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Abstract

Support