SEAL : Co-évolution synergique des agents et des environnements d'apprentissage

Résumé

Les agents de grand modèle de langage (LLM) sont de plus en plus améliorés par l'interaction, mais la plupart des méthodes d'auto-évolution adaptent soit la politique, soit l'environnement d'apprentissage de manière isolée. Nous identifions ce fossé structurel comme un désalignement agent-environnement : la frontière de capacité de l'agent change pendant l'entraînement, tandis que l'environnement qui fournit la supervision reste statique ou seulement faiblement couplé aux défaillances révélées de l'agent. Nous proposons SEAL, un cadre de co-évolution en boucle fermée pour les agents interactifs utilisant des outils. SEAL collecte des trajectoires sur-politique sous vérification exécutable, diagnostique les échecs d'exécution en étiquettes d'échec au niveau des tours, et utilise ces diagnostics comme signal partagé à la fois pour l'adaptation du côté de l'environnement et l'optimisation de la politique du côté du modèle. L'environnement fait évoluer son interface d'apprentissage pendant l'entraînement en exposant des indices d'affordance des outils plus clairs, des informations de contrainte et un retour orienté récupération, tandis que la politique est mise à jour avec une repondération d'avantage guidée par le diagnostic. Des expériences approfondies sur des évaluations d'utilisation d'outils multi-tours dans la distribution et hors distribution montrent que SEAL améliore l'apprentissage d'agent avec peu de ressources : avec seulement 400 échantillons d'entraînement, il obtient des gains moyens de +8,25 à +26,25 points sur trois modèles de base et présente un transfert positif hors distribution. Ces résultats démontrent la valeur d'adapter conjointement l'apprenant et son substrat d'apprentissage en temps d'entraînement pour des agents LLM robustes auto-améliorants.

English

Large Language Model (LLM) agents are increasingly improved through interaction, yet most self-evolution methods adapt either the policy or the learning environment in isolation. We identify this structural gap as Agent-Environment Misalignment: the agent's capability frontier changes during training, while the environment that provides supervision remains static or only weakly coupled to the agent's revealed failures. We propose SEAL, a closed-loop co-evolution framework for interactive tool-use agents. SEAL collects on-policy trajectories under executable verification, diagnoses failed rollouts into turn-level failure labels, and uses these diagnoses as a shared signal for both environment-side adaptation and model-side policy optimization. The environment evolves its training-time learning interface by exposing clearer tool affordance cues, constraint information, and recovery-oriented feedback, while the policy is updated with diagnosis-guided advantage reweighting. Extensive experiments across in-distribution and out-of-distribution multi-turn tool-use evaluations show that SEAL improves low-resource agent learning: with only 400 training samples, it yields +8.25 to +26.25 average-point gains across three backbones and exhibits positive out-of-distribution transfer. These results demonstrate the value of jointly adapting the learner and its training-time learning substrate for robust self-improving LLM agents.