MetaClaw : Just Talk — Un agent qui méta-apprend et évolue en conditions réelles
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild
March 17, 2026
Auteurs: Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI
Résumé
Les agents de modèles de langage de grande taille (LLM) sont de plus en plus utilisés pour des tâches complexes, mais les agents déployés restent souvent statiques, incapables de s'adapter à l'évolution des besoins des utilisateurs. Cela crée une tension entre la nécessité d'un service continu et celle de mettre à jour les capacités pour correspondre à des distributions de tâches changeantes. Sur des plateformes comme OpenClaw, qui gèrent des charges de travail diverses sur plus de 20 canaux, les méthodes existantes stockent soit des trajectoires brutes sans distillation des connaissances, maintiennent des bibliothèques de compétences statiques, ou nécessitent des interruptions de service perturbatrices pour le réentraînement. Nous présentons MetaClaw, un cadre de méta-apprentissage continu qui fait évoluer conjointement une politique de base de LLM et une bibliothèque de compétences comportementales réutilisables. MetaClaw emploie deux mécanismes complémentaires. L'adaptation rapide pilotée par les compétences analyse les trajectoires d'échec via un module d'évolution de LLM pour synthétiser de nouvelles compétences, permettant une amélioration immédiate sans temps d'arrêt. L'optimisation opportuniste des politiques effectue des mises à jour par gradient via un fine-tuning LoRA dans le cloud et un Apprentissage par Renforcement avec un Modèle de Récompense de Processus (RL-PRM). Ceci est déclenché pendant les fenêtres d'inactivité des utilisateurs par le Planificateur de Méta-Apprentissage Opportuniste (OMLS), qui surveille l'inactivité du système et les données calendaires. Ces mécanismes se renforcent mutuellement : une politique affinée génère de meilleures trajectoires pour la synthèse des compétences, tandis que des compétences plus riches fournissent des données de meilleure qualité pour l'optimisation des politiques. Pour éviter la contamination des données, un mécanisme de versionnement sépare les données de support et de requête. Construit sur une architecture à base de proxies, MetaClaw s'adapte à des LLM de taille production sans GPU locaux. Les expériences sur MetaClaw-Bench et AutoResearchClaw montrent que l'adaptation pilotée par les compétences améliore la précision jusqu'à 32% en valeur relative. Le pipeline complet fait progresser la précision de Kimi-K2.5 de 21,4% à 40,6% et augmente la robustesse composite de 18,3%. Le code est disponible à l'adresse https://github.com/aiming-lab/MetaClaw.
English
Large language model (LLM) agents are increasingly used for complex tasks, yet deployed agents often remain static, failing to adapt as user needs evolve. This creates a tension between the need for continuous service and the necessity of updating capabilities to match shifting task distributions. On platforms like OpenClaw, which handle diverse workloads across 20+ channels, existing methods either store raw trajectories without distilling knowledge, maintain static skill libraries, or require disruptive downtime for retraining. We present MetaClaw, a continual meta-learning framework that jointly evolves a base LLM policy and a library of reusable behavioral skills. MetaClaw employs two complementary mechanisms. Skill-driven fast adaptation analyzes failure trajectories via an LLM evolver to synthesize new skills, enabling immediate improvement with zero downtime. Opportunistic policy optimization performs gradient-based updates via cloud LoRA fine-tuning and Reinforcement Learning with a Process Reward Model (RL-PRM). This is triggered during user-inactive windows by the Opportunistic Meta-Learning Scheduler (OMLS), which monitors system inactivity and calendar data. These mechanisms are mutually reinforcing: a refined policy generates better trajectories for skill synthesis, while richer skills provide higher-quality data for policy optimization. To prevent data contamination, a versioning mechanism separates support and query data. Built on a proxy-based architecture, MetaClaw scales to production-size LLMs without local GPUs. Experiments on MetaClaw-Bench and AutoResearchClaw show that skill-driven adaptation improves accuracy by up to 32% relative. The full pipeline advances Kimi-K2.5 accuracy from 21.4% to 40.6% and increases composite robustness by 18.3%. Code is available at https://github.com/aiming-lab/MetaClaw.