ChatPaper.aiChatPaper

MetaClaw: Solo Dialogo — Un Agente che Apprende in Modello Meta e Si Evolve in Ambiente Reale

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

March 17, 2026
Autori: Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI

Abstract

Gli agenti basati su grandi modelli linguistici (LLM) sono sempre più utilizzati per compiti complessi, eppure gli agenti distribuiti spesso rimangono statici, non riuscendo ad adattarsi all'evolversi delle esigenze degli utenti. Ciò crea una tensione tra la necessità di un servizio continuo e l'esigenza di aggiornare le capacità per adeguarsi alle mutevoli distribuzioni dei compiti. Su piattaforme come OpenClaw, che gestiscono carichi di lavoro diversificati su oltre 20 canali, i metodi esistenti memorizzano traiettorie grezze senza distillare conoscenza, mantengono librerie di abilità statiche o richiedono tempi di inattività disruptivi per il riaddestramento. Presentiamo MetaClaw, un framework di meta-apprendimento continuo che evolve congiuntamente una politica LLM di base e una libreria di abilità comportamentali riutilizzabili. MetaClaw impiega due meccanismi complementari. L'adattamento rapido guidato dalle abilità analizza le traiettorie di fallimento tramite un evolutore LLM per sintetizzare nuove abilità, consentendo un miglioramento immediato con zero tempi di inattività. L'ottimizzazione opportunistic della politica esegue aggiornamenti basati su gradiente tramite fine-tuning cloud LoRA e Apprendimento per Rinforzo con un Modello di Ricompensa di Processo (RL-PRM). Questo viene attivato durante le finestre di inattività dell'utente dall'Opportunistic Meta-Learning Scheduler (OMLS), che monitora l'inattività del sistema e i dati del calendario. Questi meccanismi si rafforzano reciprocamente: una politica raffinata genera traiettorie migliori per la sintesi delle abilità, mentre abilità più ricche forniscono dati di qualità superiore per l'ottimizzazione della politica. Per prevenire la contaminazione dei dati, un meccanismo di versioning separa i dati di supporto e di query. Basato su un'architettura proxy-based, MetaClaw scala per LLM di dimensioni production senza GPU locali. Esperimenti su MetaClaw-Bench e AutoResearchClaw mostrano che l'adattamento guidato dalle abilità migliora l'accuratezza fino al 32% in termini relativi. La pipeline completa migliora l'accuratezza di Kimi-K2.5 dal 21,4% al 40,6% e aumenta la robustezza composita del 18,3%. Il codice è disponibile all'indirizzo https://github.com/aiming-lab/MetaClaw.
English
Large language model (LLM) agents are increasingly used for complex tasks, yet deployed agents often remain static, failing to adapt as user needs evolve. This creates a tension between the need for continuous service and the necessity of updating capabilities to match shifting task distributions. On platforms like OpenClaw, which handle diverse workloads across 20+ channels, existing methods either store raw trajectories without distilling knowledge, maintain static skill libraries, or require disruptive downtime for retraining. We present MetaClaw, a continual meta-learning framework that jointly evolves a base LLM policy and a library of reusable behavioral skills. MetaClaw employs two complementary mechanisms. Skill-driven fast adaptation analyzes failure trajectories via an LLM evolver to synthesize new skills, enabling immediate improvement with zero downtime. Opportunistic policy optimization performs gradient-based updates via cloud LoRA fine-tuning and Reinforcement Learning with a Process Reward Model (RL-PRM). This is triggered during user-inactive windows by the Opportunistic Meta-Learning Scheduler (OMLS), which monitors system inactivity and calendar data. These mechanisms are mutually reinforcing: a refined policy generates better trajectories for skill synthesis, while richer skills provide higher-quality data for policy optimization. To prevent data contamination, a versioning mechanism separates support and query data. Built on a proxy-based architecture, MetaClaw scales to production-size LLMs without local GPUs. Experiments on MetaClaw-Bench and AutoResearchClaw show that skill-driven adaptation improves accuracy by up to 32% relative. The full pipeline advances Kimi-K2.5 accuracy from 21.4% to 40.6% and increases composite robustness by 18.3%. Code is available at https://github.com/aiming-lab/MetaClaw.
PDF1103March 21, 2026