MetaClaw: Solo Habla -- Un Agente que Meta-Aprende y Evoluciona en Entornos Reales
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild
March 17, 2026
Autores: Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI
Resumen
Los agentes de modelos de lenguaje grandes (LLM) se utilizan cada vez más para tareas complejas, pero los agentes desplegados a menudo permanecen estáticos, sin adaptarse a la evolución de las necesidades de los usuarios. Esto crea una tensión entre la necesidad de un servicio continuo y la necesidad de actualizar las capacidades para que coincidan con las distribuciones de tareas cambiantes. En plataformas como OpenClaw, que manejan cargas de trabajo diversas a través de más de 20 canales, los métodos existentes almacenan trayectorias brutas sin destilar conocimiento, mantienen bibliotecas de habilidades estáticas o requieren tiempos de inactividad disruptivos para el reentrenamiento. Presentamos MetaClaw, un marco de meta-aprendizaje continuo que evoluciona conjuntamente una política base de LLM y una biblioteca de habilidades de comportamiento reutilizables. MetaClaw emplea dos mecanismos complementarios. La adaptación rápida impulsada por habilidades analiza las trayectorias de fallo mediante un evolucionador de LLM para sintetizar nuevas habilidades, permitiendo una mejora inmediata con tiempo de inactividad cero. La optimización de políticas oportunista realiza actualizaciones basadas en gradientes mediante ajuste fino LoRA en la nube y Aprendizaje por Refuerzo con un Modelo de Recompensa de Proceso (RL-PRM). Esto se activa durante ventanas de inactividad del usuario por el Planificador de Meta-Aprendizaje Oportunista (OMLS), que monitorea la inactividad del sistema y los datos del calendario. Estos mecanismos se refuerzan mutuamente: una política refinada genera mejores trayectorias para la síntesis de habilidades, mientras que habilidades más ricas proporcionan datos de mayor calidad para la optimización de políticas. Para prevenir la contaminación de datos, un mecanismo de control de versiones separa los datos de soporte y consulta. Construido sobre una arquitectura basada en proxies, MetaClaw escala a LLMs de tamaño de producción sin GPUs locales. Los experimentos en MetaClaw-Bench y AutoResearchClaw muestran que la adaptación impulsada por habilidades mejora la precisión hasta en un 32% relativo. La canalización completa avanza la precisión de Kimi-K2.5 del 21.4% al 40.6% y aumenta la robustez compuesta en un 18.3%. El código está disponible en https://github.com/aiming-lab/MetaClaw.
English
Large language model (LLM) agents are increasingly used for complex tasks, yet deployed agents often remain static, failing to adapt as user needs evolve. This creates a tension between the need for continuous service and the necessity of updating capabilities to match shifting task distributions. On platforms like OpenClaw, which handle diverse workloads across 20+ channels, existing methods either store raw trajectories without distilling knowledge, maintain static skill libraries, or require disruptive downtime for retraining. We present MetaClaw, a continual meta-learning framework that jointly evolves a base LLM policy and a library of reusable behavioral skills. MetaClaw employs two complementary mechanisms. Skill-driven fast adaptation analyzes failure trajectories via an LLM evolver to synthesize new skills, enabling immediate improvement with zero downtime. Opportunistic policy optimization performs gradient-based updates via cloud LoRA fine-tuning and Reinforcement Learning with a Process Reward Model (RL-PRM). This is triggered during user-inactive windows by the Opportunistic Meta-Learning Scheduler (OMLS), which monitors system inactivity and calendar data. These mechanisms are mutually reinforcing: a refined policy generates better trajectories for skill synthesis, while richer skills provide higher-quality data for policy optimization. To prevent data contamination, a versioning mechanism separates support and query data. Built on a proxy-based architecture, MetaClaw scales to production-size LLMs without local GPUs. Experiments on MetaClaw-Bench and AutoResearchClaw show that skill-driven adaptation improves accuracy by up to 32% relative. The full pipeline advances Kimi-K2.5 accuracy from 21.4% to 40.6% and increases composite robustness by 18.3%. Code is available at https://github.com/aiming-lab/MetaClaw.