Training van LLM-agenten voor spontane, beloningsvrije zelf-evolutie via wereldkennisexploratie

Samenvatting

De meeste hedendaagse agenten "evolueren zelf" door beloningen en regels te volgen die door mensen zijn gedefinieerd. Dit proces blijft echter fundamenteel afhankelijk van externe supervisie; zonder menselijke begeleiding stopt de evolutie. In dit werk trainen we agenten om een intrinsieke meta-evolutiecapaciteit te bezitten, waarmee ze spontaan kunnen leren over onbekende omgevingen vóór de taakuitvoering. Om deze vaardigheid aan te leren, ontwerpen we een op resultaten gebaseerd beloningsmechanisme dat meet in hoeverre de door een agent gegenereerde wereldkennis zijn slagingspercentage bij downstreamtaken verbetert. Dit beloningssignaal wordt uitsluitend tijdens de trainingsfase gebruikt om het model effectief te leren exploreren en samenvatten. Tijdens de inferentiefase heeft de agent geen externe beloningen of menselijke instructies nodig. Hij voert spontaan een *natieve zelfevolutie* uit om zich aan onbekende omgevingen aan te passen met behulp van zijn interne parameters. Wanneer toegepast op Qwen3-30B en Seed-OSS-36B, leidt deze verschuiving naar *natieve evolutie* tot een prestatieverbetering van 20% op WebVoyager en WebWalker. Het meest opvallende is dat de gegenereerde wereldkennis zelfs een compact Qwen3-14B-model in staat stelt de onondersteunde Gemini-2.5-Flash te overtreffen, wat een nieuw paradigma vestigt voor werkelijk evoluerende agenten.

English

Most agents today ``self-evolve'' by following rewards and rules defined by humans. However, this process remains fundamentally dependent on external supervision; without human guidance, the evolution stops. In this work, we train agents to possess an intrinsic meta-evolution capability to spontaneously learn about unseen environments prior to task execution. To instill this ability, we design an outcome-based reward mechanism that measures how much an agent's self-generated world knowledge improves its success rate on downstream tasks. This reward signal is used exclusively during the training phase to teach the model how to explore and summarize effectively. At inference time, the agent requires no external rewards or human instructions. It spontaneously performs native self-evolution to adapt to unknown environments using its internal parameters. When applied to Qwen3-30B and Seed-OSS-36B, this shift to native evolution yields a 20% performance increase on WebVoyager and WebWalker. Most strikingly, the generated world knowledge even enables a compact 14B Qwen3 model to outperform the unassisted Gemini-2.5-Flash, establishing a new paradigm for truly evolving agents.

Training van LLM-agenten voor spontane, beloningsvrije zelf-evolutie via wereldkennisexploratie

Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration

Samenvatting

Support