MetaClaw: Just Talk — агент, который метаобучается и эволюционирует в реальных условиях

Аннотация

Агенты больших языковых моделей (LLM) все чаще применяются для решения сложных задач, однако развернутые агенты часто остаются статичными и не адаптируются к изменяющимся потребностям пользователей. Это создает противоречие между необходимостью обеспечения непрерывности обслуживания и потребностью в обновлении функциональных возможностей для соответствия меняющимся распределениям задач. На таких платформах, как OpenClaw, которые обрабатывают разнородные рабочие нагрузки по 20+ каналам, существующие методы либо сохраняют необработанные траектории без извлечения знаний, либо поддерживают статические библиотеки навыков, либо требуют disruptive простоя для переобучения. Мы представляем MetaClaw — фреймворк непрерывного мета-обучения, который совместно развивает базовую политику LLM и библиотеку повторно используемых поведенческих навыков. MetaClaw использует два взаимодополняющих механизма. Быстрая адаптация на основе навыков анализирует траектории неудач с помощью эволютора LLM для синтеза новых навыков, обеспечивая мгновенное улучшение без простоя. Оппортунистическая оптимизация политики выполняет градиентные обновления посредством тонкой настройки LoRA в облаке и обучения с подкреплением с использованием моделей вознаграждения за процесс (RL-PRM). Это инициируется в периоды неактивности пользователей Оппортунистическим планировщиком мета-обучения (OMLS), который отслеживает системную неактивность и календарные данные. Эти механизмы взаимно усиливают друг друга: усовершенствованная политика генерирует лучшие траектории для синтеза навыков, а более богатые навыки предоставляют данные более высокого качества для оптимизации политики. Для предотвращения загрязнения данных механизм версионирования разделяет данные поддержки и запросов. Построенный на прокси-архитектуре, MetaClaw масштабируется до LLM производственного размера без локальных GPU. Эксперименты на MetaClaw-Bench и AutoResearchClaw показывают, что адаптация на основе навыков повышает точность до 32% в относительном выражении. Полный конвейер повышает точность Kimi-K2.5 с 21,4% до 40,6% и увеличивает комплексную устойчивость на 18,3%. Код доступен по адресу https://github.com/aiming-lab/MetaClaw.

English

Large language model (LLM) agents are increasingly used for complex tasks, yet deployed agents often remain static, failing to adapt as user needs evolve. This creates a tension between the need for continuous service and the necessity of updating capabilities to match shifting task distributions. On platforms like OpenClaw, which handle diverse workloads across 20+ channels, existing methods either store raw trajectories without distilling knowledge, maintain static skill libraries, or require disruptive downtime for retraining. We present MetaClaw, a continual meta-learning framework that jointly evolves a base LLM policy and a library of reusable behavioral skills. MetaClaw employs two complementary mechanisms. Skill-driven fast adaptation analyzes failure trajectories via an LLM evolver to synthesize new skills, enabling immediate improvement with zero downtime. Opportunistic policy optimization performs gradient-based updates via cloud LoRA fine-tuning and Reinforcement Learning with a Process Reward Model (RL-PRM). This is triggered during user-inactive windows by the Opportunistic Meta-Learning Scheduler (OMLS), which monitors system inactivity and calendar data. These mechanisms are mutually reinforcing: a refined policy generates better trajectories for skill synthesis, while richer skills provide higher-quality data for policy optimization. To prevent data contamination, a versioning mechanism separates support and query data. Built on a proxy-based architecture, MetaClaw scales to production-size LLMs without local GPUs. Experiments on MetaClaw-Bench and AutoResearchClaw show that skill-driven adaptation improves accuracy by up to 32% relative. The full pipeline advances Kimi-K2.5 accuracy from 21.4% to 40.6% and increases composite robustness by 18.3%. Code is available at https://github.com/aiming-lab/MetaClaw.

MetaClaw: Just Talk — агент, который метаобучается и эволюционирует в реальных условиях

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Аннотация

Support