ChatPaper.aiChatPaper

MetaClaw: Apenas Fale — Um Agente que Meta-Aprende e Evolui em Ambiente Real

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

March 17, 2026
Autores: Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI

Resumo

Os agentes de modelos de linguagem de grande porte (LLM) são cada vez mais utilizados para tarefas complexas, mas os agentes implantados frequentemente permanecem estáticos, falhando em se adaptar à medida que as necessidades dos usuários evoluem. Isso cria uma tensão entre a necessidade de serviço contínuo e a necessidade de atualizar capacidades para corresponder às distribuições de tarefas em mudança. Em plataformas como a OpenClaw, que gerencia cargas de trabalho diversificadas em mais de 20 canais, os métodos existentes ou armazenam trajetórias brutas sem destilar conhecimento, mantêm bibliotecas de habilidades estáticas ou exigem tempo de inatividade disruptivo para novo treinamento. Apresentamos o MetaClaw, um framework de meta-aprendizado contínuo que evolui conjuntamente uma política base de LLM e uma biblioteca de habilidades comportamentais reutilizáveis. O MetaClaw emprega dois mecanismos complementares. A adaptação rápida orientada por habilidades analisa trajetórias de falha via um evolucionador de LLM para sintetizar novas habilidades, permitindo melhoria imediata com tempo de inatividade zero. A otimização oportunista de políticas realiza atualizações baseadas em gradiente via ajuste fino LoRA na nuvem e Aprendizado por Reforço com um Modelo de Recompensa de Processo (RL-PRM). Isso é acionado durante janelas de inatividade do usuário pelo Agendador de Meta-Aprendizado Oportunista (OMLS), que monitora a inatividade do sistema e dados de calendário. Estes mecanismos são mutuamente reforçadores: uma política refinada gera melhores trajetórias para síntese de habilidades, enquanto habilidades mais ricas fornecem dados de maior qualidade para otimização de políticas. Para evitar contaminação de dados, um mecanismo de versionamento separa os dados de suporte e consulta. Construído sobre uma arquitetura baseada em proxy, o MetaClaw escala para LLMs de tamanho de produção sem GPUs locais. Experimentos no MetaClaw-Bench e AutoResearchClaw mostram que a adaptação orientada por habilidades melhora a precisão em até 32% em termos relativos. O pipeline completo avança a precisão do Kimi-K2.5 de 21,4% para 40,6% e aumenta a robustez composta em 18,3%. O código está disponível em https://github.com/aiming-lab/MetaClaw.
English
Large language model (LLM) agents are increasingly used for complex tasks, yet deployed agents often remain static, failing to adapt as user needs evolve. This creates a tension between the need for continuous service and the necessity of updating capabilities to match shifting task distributions. On platforms like OpenClaw, which handle diverse workloads across 20+ channels, existing methods either store raw trajectories without distilling knowledge, maintain static skill libraries, or require disruptive downtime for retraining. We present MetaClaw, a continual meta-learning framework that jointly evolves a base LLM policy and a library of reusable behavioral skills. MetaClaw employs two complementary mechanisms. Skill-driven fast adaptation analyzes failure trajectories via an LLM evolver to synthesize new skills, enabling immediate improvement with zero downtime. Opportunistic policy optimization performs gradient-based updates via cloud LoRA fine-tuning and Reinforcement Learning with a Process Reward Model (RL-PRM). This is triggered during user-inactive windows by the Opportunistic Meta-Learning Scheduler (OMLS), which monitors system inactivity and calendar data. These mechanisms are mutually reinforcing: a refined policy generates better trajectories for skill synthesis, while richer skills provide higher-quality data for policy optimization. To prevent data contamination, a versioning mechanism separates support and query data. Built on a proxy-based architecture, MetaClaw scales to production-size LLMs without local GPUs. Experiments on MetaClaw-Bench and AutoResearchClaw show that skill-driven adaptation improves accuracy by up to 32% relative. The full pipeline advances Kimi-K2.5 accuracy from 21.4% to 40.6% and increases composite robustness by 18.3%. Code is available at https://github.com/aiming-lab/MetaClaw.
PDF1103March 21, 2026