SEAL: Coevolução Sinérgica de Agentes e Ambientes de Aprendizagem

Resumo

Os agentes de Modelos de Linguagem de Grande Porte (LLM) são cada vez mais aprimorados por meio da interação, no entanto, a maioria dos métodos de autoevolução adapta isoladamente a política ou o ambiente de aprendizado. Identificamos essa lacuna estrutural como Desalinhamento Agente-Ambiente: a fronteira de capacidade do agente muda durante o treinamento, enquanto o ambiente que fornece supervisão permanece estático ou apenas fracamente acoplado às falhas reveladas do agente. Propomos SEAL, uma estrutura de coevolução em malha fechada para agentes interativos de uso de ferramentas. O SEAL coleta trajetórias on-policy sob verificação executável, diagnostica execuções falhas em rótulos de falha por turno e utiliza esses diagnósticos como um sinal compartilhado tanto para a adaptação no lado do ambiente quanto para a otimização da política no lado do modelo. O ambiente evolui sua interface de aprendizado em tempo de treinamento, expondo dicas de affordance de ferramentas mais claras, informações de restrição e feedback orientado à recuperação, enquanto a política é atualizada com re-ponderação de vantagem guiada por diagnóstico. Extensos experimentos em avaliações de uso de ferramentas em múltiplos turnos dentro e fora da distribuição mostram que o SEAL melhora o aprendizado do agente com poucos recursos: com apenas 400 amostras de treinamento, ele produz ganhos de +8,25 a +26,25 pontos médios em três arquiteturas base e exibe transferência positiva fora da distribuição. Esses resultados demonstram o valor de adaptar conjuntamente o aprendiz e seu substrato de aprendizado em tempo de treinamento para agentes LLM robustos e autoaprimoráveis.

English

Large Language Model (LLM) agents are increasingly improved through interaction, yet most self-evolution methods adapt either the policy or the learning environment in isolation. We identify this structural gap as Agent-Environment Misalignment: the agent's capability frontier changes during training, while the environment that provides supervision remains static or only weakly coupled to the agent's revealed failures. We propose SEAL, a closed-loop co-evolution framework for interactive tool-use agents. SEAL collects on-policy trajectories under executable verification, diagnoses failed rollouts into turn-level failure labels, and uses these diagnoses as a shared signal for both environment-side adaptation and model-side policy optimization. The environment evolves its training-time learning interface by exposing clearer tool affordance cues, constraint information, and recovery-oriented feedback, while the policy is updated with diagnosis-guided advantage reweighting. Extensive experiments across in-distribution and out-of-distribution multi-turn tool-use evaluations show that SEAL improves low-resource agent learning: with only 400 training samples, it yields +8.25 to +26.25 average-point gains across three backbones and exhibits positive out-of-distribution transfer. These results demonstrate the value of jointly adapting the learner and its training-time learning substrate for robust self-improving LLM agents.