ChatPaper.aiChatPaper

메타클로: 저스트 토크 - 야생 환경에서 메타러닝과 진화를 수행하는 에이전트

MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

March 17, 2026
저자: Peng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI

초록

대규모 언어 모델(LLM) 에이전트는 복잡한 작업에 점점 더 많이 활용되고 있으나, 배포된 에이전트는 종종 정적 상태로 남아 사용자 요구의 변화에 적응하지 못합니다. 이는 지속적인 서비스 제공 필요성과 변화하는 작업 분포에 맞춰 능력을 업데이트해야 하는 필요성 사이에 긴장을 초래합니다. 20개 이상의 채널에서 다양한 워크로드를 처리하는 OpenClaw와 같은 플랫폼에서 기존 방법은 지식을 정제하지 않고 원본 트레이젝토리를 저장하거나, 정적 스킬 라이브러리를 유지하거나, 재교육을 위해 서비스 중단을 필요로 합니다. 본 논문에서는 기본 LLM 정책과 재사용 가능한 행동 스킬 라이브러리를 공동으로 진화시키는 지속 메타학습 프레임워크인 MetaClaw를 제시합니다. MetaClaw는 두 가지 상호 보완적 메커니즘을 사용합니다. 스킬 주도 빠른 적응은 LLM 진화기를 통해 실패 트레이젝토리를 분석하여 새로운 스킬을 합성하며, 가동 중단 시간 없이 즉각적인 개선을 가능하게 합니다. 기회주의적 정책 최적화는 클라우드 LoRA 미세 조정 및 프로세스 보상 모델 강화 학습(RL-PRM)을 통해 그래디언트 기반 업데이트를 수행합니다. 이는 시스템 비활성 상태와 캘린더 데이터를 모니터링하는 기회주의적 메타학습 스케줄러(OMLS)에 의해 사용자 비활성 시간대에 트리거됩니다. 이러한 메커니즘은 상호 강화됩니다. 정제된 정책은 스킬 합성을 위한 더 나은 트레이젝토리를 생성하고, 더 풍부한 스킬은 정책 최적화를 위한更高品質의 데이터를 제공합니다. 데이터 오염을 방지하기 위해 버전 관리 메커니즘이 지원 데이터와 쿼리 데이터를 분리합니다. 프록시 기반 아키텍처 위에 구축된 MetaClaw는 로컬 GPU 없이 프로덕션 규모 LLM으로 확장됩니다. MetaClaw-Bench 및 AutoResearchClaw에 대한 실험에서 스킬 주도 적응이 상대적으로 정확도를 최대 32%까지 향상시키는 것으로 나타났습니다. 전체 파이프라인은 Kimi-K2.5의 정확도를 21.4%에서 40.6%로 높이고 복합 견고성을 18.3% 증가시켰습니다. 코드는 https://github.com/aiming-lab/MetaClaw에서 확인할 수 있습니다.
English
Large language model (LLM) agents are increasingly used for complex tasks, yet deployed agents often remain static, failing to adapt as user needs evolve. This creates a tension between the need for continuous service and the necessity of updating capabilities to match shifting task distributions. On platforms like OpenClaw, which handle diverse workloads across 20+ channels, existing methods either store raw trajectories without distilling knowledge, maintain static skill libraries, or require disruptive downtime for retraining. We present MetaClaw, a continual meta-learning framework that jointly evolves a base LLM policy and a library of reusable behavioral skills. MetaClaw employs two complementary mechanisms. Skill-driven fast adaptation analyzes failure trajectories via an LLM evolver to synthesize new skills, enabling immediate improvement with zero downtime. Opportunistic policy optimization performs gradient-based updates via cloud LoRA fine-tuning and Reinforcement Learning with a Process Reward Model (RL-PRM). This is triggered during user-inactive windows by the Opportunistic Meta-Learning Scheduler (OMLS), which monitors system inactivity and calendar data. These mechanisms are mutually reinforcing: a refined policy generates better trajectories for skill synthesis, while richer skills provide higher-quality data for policy optimization. To prevent data contamination, a versioning mechanism separates support and query data. Built on a proxy-based architecture, MetaClaw scales to production-size LLMs without local GPUs. Experiments on MetaClaw-Bench and AutoResearchClaw show that skill-driven adaptation improves accuracy by up to 32% relative. The full pipeline advances Kimi-K2.5 accuracy from 21.4% to 40.6% and increases composite robustness by 18.3%. Code is available at https://github.com/aiming-lab/MetaClaw.
PDF1063March 20, 2026