SEAL: Synergetische Co-evolutie van Agenten en Leeromgevingen

Samenvatting

Large Language Model (LLM)-agenten worden steeds vaker verbeterd door interactie, maar de meeste zelfevolutiemethoden passen ofwel het beleid ofwel de leeromgeving afzonderlijk aan. Wij identificeren deze structurele leemte als een afstemmingsprobleem tussen agent en omgeving (Agent-Environment Misalignment): de vaardigheidsgrens van de agent verandert tijdens de training, terwijl de omgeving die toezicht biedt statisch blijft of slechts zwak gekoppeld is aan de onthulde tekortkomingen van de agent. Wij stellen SEAL voor, een gesloten-lus co-evolutieraamwerk voor interactieve tool-gebruikende agenten. SEAL verzamelt on-policy trajecten onder uitvoerbare verificatie, diagnosticeert mislukte rollouts in faallabels op beurtniveau en gebruikt deze diagnoses als een gedeeld signaal voor zowel omgevingsaanpassing als modelbeleidsoptimalisatie. De omgeving evolueert haar trainingsinterface door duidelijkere aanwijzingen voor tool-affordanties, beperkingsinformatie en herstelgerichte feedback bloot te leggen, terwijl het beleid wordt bijgewerkt met diagnose-geleide herweging van voordelen. Uitgebreide experimenten met multi-turn tool-gebruiksevaluaties binnen en buiten de distributie tonen aan dat SEAL het leren van agenten met weinig middelen verbetert: met slechts 400 trainingssamples levert het +8,25 tot +26,25 gemiddelde puntwinsten op over drie backbones en vertoont het positieve buitendistributietransfer. Deze resultaten tonen de waarde aan van het gezamenlijk aanpassen van de lerende en zijn trainingsleersubstraat voor robuuste zelfverbeterende LLM-agenten.

English

Large Language Model (LLM) agents are increasingly improved through interaction, yet most self-evolution methods adapt either the policy or the learning environment in isolation. We identify this structural gap as Agent-Environment Misalignment: the agent's capability frontier changes during training, while the environment that provides supervision remains static or only weakly coupled to the agent's revealed failures. We propose SEAL, a closed-loop co-evolution framework for interactive tool-use agents. SEAL collects on-policy trajectories under executable verification, diagnoses failed rollouts into turn-level failure labels, and uses these diagnoses as a shared signal for both environment-side adaptation and model-side policy optimization. The environment evolves its training-time learning interface by exposing clearer tool affordance cues, constraint information, and recovery-oriented feedback, while the policy is updated with diagnosis-guided advantage reweighting. Extensive experiments across in-distribution and out-of-distribution multi-turn tool-use evaluations show that SEAL improves low-resource agent learning: with only 400 training samples, it yields +8.25 to +26.25 average-point gains across three backbones and exhibits positive out-of-distribution transfer. These results demonstrate the value of jointly adapting the learner and its training-time learning substrate for robust self-improving LLM agents.