MetaClaw: Just Talk – Ein Agent, der in der realen Welt metalernt und sich weiterentwickelt
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild
March 17, 2026
Autoren: Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI
Zusammenfassung
Große Sprachmodell (LLM)-Agenten werden zunehmend für komplexe Aufgaben eingesetzt, doch eingesetzte Agenten bleiben oft statisch und passen sich nicht an die sich entwickelnden Benutzeranforderungen an. Dies erzeugt eine Spannung zwischen der Notwendigkeit eines kontinuierlichen Betriebs und der Notwendigkeit, Fähigkeiten zu aktualisieren, um sich an sich verschiebende Aufgabenverteilungen anzupassen. Auf Plattformen wie OpenClaw, die diverse Workloads über 20+ Kanäle verarbeiten, speichern bestehende Methoden entweder Roh-Trajektorien ohne Wissensextraktion, pflegen statische Fähigkeitsbibliotheken oder erfordern unterbrechungsbehaftete Ausfallzeiten für Neutrainings. Wir stellen MetaClaw vor, einen kontinuierlichen Meta-Learning-Framework, der gemeinsam eine Basis-LLM-Policy und eine Bibliothek wiederverwendbarer Verhaltensfähigkeiten weiterentwickelt. MetaClaw nutzt zwei komplementäre Mechanismen. Fähigkeitsgetriebene schnelle Anpassung analysiert Fehlschlag-Trajektorien via eines LLM-Evolvers, um neue Fähigkeiten zu synthetisieren, und ermöglicht so sofortige Verbesserung ohne Ausfallzeiten. Opportunistische Policy-Optimierung führt gradientenbasierte Updates via Cloud-LoRA-Fine-Tuning und Reinforcement Learning mit einem Process Reward Model (RL-PRM) durch. Dies wird während nutzerinaktiver Zeitfenster durch den Opportunistic Meta-Learning Scheduler (OMLS) ausgelöst, der Systeminaktivität und Kalenderdaten überwacht. Diese Mechanismen verstärken sich gegenseitig: Eine verfeinerte Policy generiert bessere Trajektorien für die Fähigkeitssynthese, während umfangreichere Fähigkeiten höherwertige Daten für die Policy-Optimierung liefern. Um Datenkontamination zu verhindern, trennt ein Versionierungsmechanismus Support- und Query-Daten. Auf einer Proxy-basierten Architektur aufbauend, skaliert MetaClaw auf Produktionsgrößen-LLMs ohne lokale GPUs. Experimente auf MetaClaw-Bench und AutoResearchClaw zeigen, dass fähigkeitsgetriebene Anpassung die Genauigkeit um bis zu 32 % relativ verbessert. Die vollständige Pipeline steigert die Kimi-K2.5-Genauigkeit von 21,4 % auf 40,6 % und erhöht die zusammengesetzte Robustheit um 18,3 %. Code ist verfügbar unter https://github.com/aiming-lab/MetaClaw.
English
Large language model (LLM) agents are increasingly used for complex tasks, yet deployed agents often remain static, failing to adapt as user needs evolve. This creates a tension between the need for continuous service and the necessity of updating capabilities to match shifting task distributions. On platforms like OpenClaw, which handle diverse workloads across 20+ channels, existing methods either store raw trajectories without distilling knowledge, maintain static skill libraries, or require disruptive downtime for retraining. We present MetaClaw, a continual meta-learning framework that jointly evolves a base LLM policy and a library of reusable behavioral skills. MetaClaw employs two complementary mechanisms. Skill-driven fast adaptation analyzes failure trajectories via an LLM evolver to synthesize new skills, enabling immediate improvement with zero downtime. Opportunistic policy optimization performs gradient-based updates via cloud LoRA fine-tuning and Reinforcement Learning with a Process Reward Model (RL-PRM). This is triggered during user-inactive windows by the Opportunistic Meta-Learning Scheduler (OMLS), which monitors system inactivity and calendar data. These mechanisms are mutually reinforcing: a refined policy generates better trajectories for skill synthesis, while richer skills provide higher-quality data for policy optimization. To prevent data contamination, a versioning mechanism separates support and query data. Built on a proxy-based architecture, MetaClaw scales to production-size LLMs without local GPUs. Experiments on MetaClaw-Bench and AutoResearchClaw show that skill-driven adaptation improves accuracy by up to 32% relative. The full pipeline advances Kimi-K2.5 accuracy from 21.4% to 40.6% and increases composite robustness by 18.3%. Code is available at https://github.com/aiming-lab/MetaClaw.