Aprendendo a Agir sob Ruído: Melhorando a Robustez do Agente por meio de Ambientes Ruidosos

Resumo

Avanços recentes em modelos de linguagem de grande escala (LLMs) facilitaram a ampla implementação de LLMs como agentes interativos capazes de raciocínio, planejamento e uso de ferramentas. Apesar do desempenho robusto em referenciais (benchmarks) existentes, esses agentes frequentemente exibem degradação notável quando implantados em ambientes reais, onde os cenários são inerentemente estocásticos e imperfeitos. Argumentamos que essa discrepância decorre de uma incompatibilidade fundamental entre as configurações idealizadas de treinamento e as dinâmicas de interação do mundo real, onde os paradigmas atuais dependem de instruções de tarefa cuidadosamente curadas e ambientes estáveis e bem controlados. Para preencher essa lacuna, propomos o NoisyAgent, uma estrutura de treinamento agentivo que incorpora explicitamente as imperfeições ambientais no processo de aprendizado do agente. Identificamos duas fontes principais de ruído de interação em cenários reais: o ruído do usuário, que captura ambiguidade e variabilidade na interação com o usuário, e o ruído da ferramenta, que reflete falhas e anomalias na execução de ferramentas. Introduzimos tais perturbações no pipeline de treinamento modificando os padrões de interação do usuário e simulando os resultados da execução de ferramentas no ambiente de treinamento. Para estabilizar o treinamento e, ao mesmo tempo, incentivar os agentes a lidarem com imperfeições cada vez mais desafiadoras, o ruído é aplicado apenas a um subconjunto de trajetórias (rollouts) e sua dificuldade é aumentada progressivamente à medida que o modelo se adapta ao nível atual de ruído. Experimentos extensos demonstram que nossa abordagem melhora consistentemente a robustez do agente em ambientes ruidosos e dinâmicos. Nossa análise revela que o treinamento sob condições de ruído também produz ganhos de desempenho em referenciais idealizados, sugerindo que a exposição controlada ao ruído ambiental promove comportamentos de raciocínio e tomada de decisão mais generalizáveis. Nossos achados destacam a importância de modelar imperfeições de interação para superar a lacuna entre o treinamento de agentes e a implantação no mundo real.

English

Recent advances in large language models (LLMs) have facilitated the widespread deployment of LLMs as interactive agents capable of reasoning, planning, and tool use. Despite strong performance on existing benchmarks, such agents often exhibit notable degradation when deployed in real-world settings, where environments are inherently stochastic and imperfect. We argue that this discrepancy arises from a fundamental mismatch between idealized training settings and real-world interaction dynamics, where current paradigms rely on carefully curated task instructions and stable, well-controlled environments. To address this gap, we propose NoisyAgent, an agentic training framework that explicitly incorporates environmental imperfections into the agent learning process. We identify two major sources of interaction noise in real-world scenarios: user noise, which captures ambiguity and variability in user interaction, and tool noise, which reflects failures and anomalies in tool execution. We introduce such perturbations into the training pipeline by modifying user interaction patterns and simulating tool execution results within the training environment. To stabilize training while encouraging agents to handle increasingly challenging imperfections, noise is applied to only a subset of rollouts and progressively increased in difficulty as the model adapts to the current noise level. Extensive experiments demonstrate that our approach consistently improves agent robustness under noisy and dynamic environments. Our analysis reveals that training under noise conditions also yields performance gains on idealized benchmarks, suggesting that controlled exposure to environmental noise promotes more generalizable reasoning and decision-making behaviors. Our findings highlight the importance of modeling interaction imperfections for bridging the gap between agent training and real-world deployment.