MetaClaw: Gewoon Praten -- Een Agent Die Meta-Leeert en Evolueert in de Praktijk
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild
March 17, 2026
Auteurs: Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI
Samenvatting
Grootschalige taalmodel (LLM) agenten worden steeds vaker ingezet voor complexe taken, maar ingezette agenten blijven vaak statisch en passen zich niet aan aan evoluerende gebruikersbehoeften. Dit creëert een spanning tussen de noodzaak van continue dienstverlening en de behoefte om capaciteiten bij te werken om verschuivende taakverdelingen bij te houden. Op platformen zoals OpenClaw, die uiteenlopende workloads verwerken via 20+ kanalen, slaan bestaande methodes ofwel ruwe trajectgegevens op zonder kennis te destilleren, houden ze statische vaardigheidsbibliotheken aan, of vereisen ze verstorende downtime voor hertraining. Wij presenteren MetaClaw, een continu meta-leerframework dat gezamenlijk een basis-LLM-beleid en een bibliotheek met herbruikbare gedragsvaardigheden ontwikkelt. MetaClaw hanteert twee complementaire mechanismen. Vaardigheidsgedreven snelle aanpassing analyseert fouttrajecten via een LLM-evolver om nieuwe vaardigheden te synthetiseren, wat onmiddellijke verbetering met zero downtime mogelijk maakt. Opportunistische beleidsoptimalisatie voert op gradieten gebaseerde updates uit via cloud-LoRA-finetuning en Reinforcement Learning met een Process Reward Model (RL-PRM). Dit wordt geactiveerd tijdens gebruikersinactieve vensters door de Opportunistic Meta-Learning Scheduler (OMLS), die systeeminactiviteit en kalendergegevens bewaakt. Deze mechanismen versterken elkaar: een verfijnd beleid genereert betere trajecten voor vaardigheidssynthese, terwijl rijkere vaardigheden data van hogere kwaliteit opleveren voor beleidsoptimalisatie. Om datacontaminatie te voorkomen, scheidt een versiebeheermechanisme ondersteunings- en querygegevens. Gebouwd op een proxy-gebaseerde architectuur, schaalt MetaClaw naar productiegroote LLM's zonder lokale GPU's. Experimenten op MetaClaw-Bench en AutoResearchClaw tonen aan dat vaardigheidsgedreven aanpassing de nauwkeurigheid relatief met tot 32% verbetert. De volledige pijplijn verhoogt de Kimi-K2.5 nauwkeurigheid van 21,4% naar 40,6% en verhoogt de composiete robuustheid met 18,3%. Code is beschikbaar op https://github.com/aiming-lab/MetaClaw.
English
Large language model (LLM) agents are increasingly used for complex tasks, yet deployed agents often remain static, failing to adapt as user needs evolve. This creates a tension between the need for continuous service and the necessity of updating capabilities to match shifting task distributions. On platforms like OpenClaw, which handle diverse workloads across 20+ channels, existing methods either store raw trajectories without distilling knowledge, maintain static skill libraries, or require disruptive downtime for retraining. We present MetaClaw, a continual meta-learning framework that jointly evolves a base LLM policy and a library of reusable behavioral skills. MetaClaw employs two complementary mechanisms. Skill-driven fast adaptation analyzes failure trajectories via an LLM evolver to synthesize new skills, enabling immediate improvement with zero downtime. Opportunistic policy optimization performs gradient-based updates via cloud LoRA fine-tuning and Reinforcement Learning with a Process Reward Model (RL-PRM). This is triggered during user-inactive windows by the Opportunistic Meta-Learning Scheduler (OMLS), which monitors system inactivity and calendar data. These mechanisms are mutually reinforcing: a refined policy generates better trajectories for skill synthesis, while richer skills provide higher-quality data for policy optimization. To prevent data contamination, a versioning mechanism separates support and query data. Built on a proxy-based architecture, MetaClaw scales to production-size LLMs without local GPUs. Experiments on MetaClaw-Bench and AutoResearchClaw show that skill-driven adaptation improves accuracy by up to 32% relative. The full pipeline advances Kimi-K2.5 accuracy from 21.4% to 40.6% and increases composite robustness by 18.3%. Code is available at https://github.com/aiming-lab/MetaClaw.