MetaClaw: Just Talk ― 野生でメタ学習し進化するエージェント
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild
March 17, 2026
著者: Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI
要旨
大規模言語モデル(LLM)エージェントは複雑なタスクに活用される機会が増えているが、デプロイされたエージェントは静的状態のままであり、ユーザーニーズの変化に適応できないことが多い。これにより、継続的なサービス提供の必要性と、変化するタスク分布に対応するための能力更新の要請との間に緊張関係が生じている。20以上のチャネルで多様なワークロードを扱うOpenClawのようなプラットフォームでは、既存の手法は、知識を蒸留せずに生の軌跡データを保存するか、静的なスキルライブラリを維持するか、あるいは再トレーニングのための中断を伴うダウンタイムを必要とする。本論文では、ベースLLMポリシーと再利用可能な行動スキルのライブラリを共同で進化させる継続的メタ学習フレームワーク「MetaClaw」を提案する。MetaClawは二つの相補的メカニズムを採用する。スキル駆動型高速適応は、LLMエボルバーによる失敗軌跡の分析を通じて新規スキルを合成し、ダウンタイムゼロでの即時改善を実現する。 Opportunistic Policy Optimization(日和見的ポリシー最適化)は、クラウド上のLoRAファインチューニングとプロセス報酬モデルを用いた強化学習(RL-PRM)による勾配ベースの更新を実行する。これは、システムの非アクティブ状態とカレンダーデータを監視するOpportunistic Meta-Learning Scheduler(OMLS)によって、ユーザー非アクティブ期間中にトリガーされる。これらのメカニズムは相互に強化し合う:洗練されたポリシーはスキル合成のためのより優れた軌跡を生成し、豊富なスキルはポリシー最適化のための高品質なデータを提供する。データ汚染を防ぐため、バージョニングメカニズムがサポートデータとクエリデータを分離する。プロキシベースのアーキテクチャ上に構築されたMetaClawは、ローカルGPUなしでプロダクション規模のLLMにスケールする。MetaClaw-BenchとAutoResearchClawによる実験では、スキル駆動型適応が精度を最大32%相対向上させることが示された。フルパイプラインにより、Kimi-K2.5の精度は21.4%から40.6%に向上し、複合ロバスト性が18.3%増加した。コードはhttps://github.com/aiming-lab/MetaClawで公開されている。
English
Large language model (LLM) agents are increasingly used for complex tasks, yet deployed agents often remain static, failing to adapt as user needs evolve. This creates a tension between the need for continuous service and the necessity of updating capabilities to match shifting task distributions. On platforms like OpenClaw, which handle diverse workloads across 20+ channels, existing methods either store raw trajectories without distilling knowledge, maintain static skill libraries, or require disruptive downtime for retraining. We present MetaClaw, a continual meta-learning framework that jointly evolves a base LLM policy and a library of reusable behavioral skills. MetaClaw employs two complementary mechanisms. Skill-driven fast adaptation analyzes failure trajectories via an LLM evolver to synthesize new skills, enabling immediate improvement with zero downtime. Opportunistic policy optimization performs gradient-based updates via cloud LoRA fine-tuning and Reinforcement Learning with a Process Reward Model (RL-PRM). This is triggered during user-inactive windows by the Opportunistic Meta-Learning Scheduler (OMLS), which monitors system inactivity and calendar data. These mechanisms are mutually reinforcing: a refined policy generates better trajectories for skill synthesis, while richer skills provide higher-quality data for policy optimization. To prevent data contamination, a versioning mechanism separates support and query data. Built on a proxy-based architecture, MetaClaw scales to production-size LLMs without local GPUs. Experiments on MetaClaw-Bench and AutoResearchClaw show that skill-driven adaptation improves accuracy by up to 32% relative. The full pipeline advances Kimi-K2.5 accuracy from 21.4% to 40.6% and increases composite robustness by 18.3%. Code is available at https://github.com/aiming-lab/MetaClaw.