MetaClaw: Just Talk — агент, который метаобучается и эволюционирует в реальных условиях
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild
March 17, 2026
Авторы: Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI
Аннотация
Агенты больших языковых моделей (LLM) все чаще применяются для решения сложных задач, однако развернутые агенты часто остаются статичными и не адаптируются к изменяющимся потребностям пользователей. Это создает противоречие между необходимостью обеспечения непрерывности обслуживания и потребностью в обновлении функциональных возможностей для соответствия меняющимся распределениям задач. На таких платформах, как OpenClaw, которые обрабатывают разнородные рабочие нагрузки по 20+ каналам, существующие методы либо сохраняют необработанные траектории без извлечения знаний, либо поддерживают статические библиотеки навыков, либо требуют disruptive простоя для переобучения. Мы представляем MetaClaw — фреймворк непрерывного мета-обучения, который совместно развивает базовую политику LLM и библиотеку повторно используемых поведенческих навыков. MetaClaw использует два взаимодополняющих механизма. Быстрая адаптация на основе навыков анализирует траектории неудач с помощью эволютора LLM для синтеза новых навыков, обеспечивая мгновенное улучшение без простоя. Оппортунистическая оптимизация политики выполняет градиентные обновления посредством тонкой настройки LoRA в облаке и обучения с подкреплением с использованием моделей вознаграждения за процесс (RL-PRM). Это инициируется в периоды неактивности пользователей Оппортунистическим планировщиком мета-обучения (OMLS), который отслеживает системную неактивность и календарные данные. Эти механизмы взаимно усиливают друг друга: усовершенствованная политика генерирует лучшие траектории для синтеза навыков, а более богатые навыки предоставляют данные более высокого качества для оптимизации политики. Для предотвращения загрязнения данных механизм версионирования разделяет данные поддержки и запросов. Построенный на прокси-архитектуре, MetaClaw масштабируется до LLM производственного размера без локальных GPU. Эксперименты на MetaClaw-Bench и AutoResearchClaw показывают, что адаптация на основе навыков повышает точность до 32% в относительном выражении. Полный конвейер повышает точность Kimi-K2.5 с 21,4% до 40,6% и увеличивает комплексную устойчивость на 18,3%. Код доступен по адресу https://github.com/aiming-lab/MetaClaw.
English
Large language model (LLM) agents are increasingly used for complex tasks, yet deployed agents often remain static, failing to adapt as user needs evolve. This creates a tension between the need for continuous service and the necessity of updating capabilities to match shifting task distributions. On platforms like OpenClaw, which handle diverse workloads across 20+ channels, existing methods either store raw trajectories without distilling knowledge, maintain static skill libraries, or require disruptive downtime for retraining. We present MetaClaw, a continual meta-learning framework that jointly evolves a base LLM policy and a library of reusable behavioral skills. MetaClaw employs two complementary mechanisms. Skill-driven fast adaptation analyzes failure trajectories via an LLM evolver to synthesize new skills, enabling immediate improvement with zero downtime. Opportunistic policy optimization performs gradient-based updates via cloud LoRA fine-tuning and Reinforcement Learning with a Process Reward Model (RL-PRM). This is triggered during user-inactive windows by the Opportunistic Meta-Learning Scheduler (OMLS), which monitors system inactivity and calendar data. These mechanisms are mutually reinforcing: a refined policy generates better trajectories for skill synthesis, while richer skills provide higher-quality data for policy optimization. To prevent data contamination, a versioning mechanism separates support and query data. Built on a proxy-based architecture, MetaClaw scales to production-size LLMs without local GPUs. Experiments on MetaClaw-Bench and AutoResearchClaw show that skill-driven adaptation improves accuracy by up to 32% relative. The full pipeline advances Kimi-K2.5 accuracy from 21.4% to 40.6% and increases composite robustness by 18.3%. Code is available at https://github.com/aiming-lab/MetaClaw.