Apprendre à agir sous le bruit : améliorer la robustesse des agents via des environnements bruités

Résumé

Les avancées récentes dans les grands modèles de langage (LLMs) ont facilité le déploiement à grande échelle de ces modèles en tant qu’agents interactifs capables de raisonnement, de planification et d’utilisation d’outils. Malgré des performances solides sur les bancs d’essai existants, ces agents présentent souvent une dégradation notable lorsqu’ils sont déployés dans des contextes réels, où les environnements sont intrinsèquement stochastiques et imparfaits. Nous soutenons que cet écart provient d’une inadéquation fondamentale entre les contextes d’entraînement idéalisés et les dynamiques d’interaction réelles, les paradigmes actuels reposant sur des instructions de tâche soigneusement sélectionnées et des environnements stables et bien contrôlés. Pour combler cette lacune, nous proposons NoisyAgent, un cadre d’entraînement agentique qui intègre explicitement les imperfections environnementales dans le processus d’apprentissage de l’agent. Nous identifions deux sources majeures de bruit d’interaction dans les scénarios réels : le bruit utilisateur, qui capture l’ambiguïté et la variabilité des interactions avec l’utilisateur, et le bruit d’outil, qui reflète les échecs et anomalies dans l’exécution des outils. Nous introduisons ces perturbations dans le pipeline d’entraînement en modifiant les schémas d’interaction utilisateur et en simulant les résultats d’exécution des outils dans l’environnement d’entraînement. Pour stabiliser l’entraînement tout en encourageant les agents à gérer des imperfections de plus en plus difficiles, le bruit n’est appliqué qu’à un sous-ensemble des déploiements et sa difficulté est augmentée progressivement à mesure que le modèle s’adapte au niveau de bruit courant. Des expériences approfondies montrent que notre approche améliore systématiquement la robustesse des agents dans des environnements bruyants et dynamiques. Notre analyse révèle que l’entraînement en présence de bruit génère également des gains de performance sur les bancs d’essai idéalisés, ce qui suggère qu’une exposition contrôlée au bruit environnemental favorise des comportements de raisonnement et de prise de décision plus généralisables. Nos résultats soulignent l’importance de modéliser les imperfections d’interaction pour combler l’écart entre l’entraînement des agents et leur déploiement dans le monde réel.

English

Recent advances in large language models (LLMs) have facilitated the widespread deployment of LLMs as interactive agents capable of reasoning, planning, and tool use. Despite strong performance on existing benchmarks, such agents often exhibit notable degradation when deployed in real-world settings, where environments are inherently stochastic and imperfect. We argue that this discrepancy arises from a fundamental mismatch between idealized training settings and real-world interaction dynamics, where current paradigms rely on carefully curated task instructions and stable, well-controlled environments. To address this gap, we propose NoisyAgent, an agentic training framework that explicitly incorporates environmental imperfections into the agent learning process. We identify two major sources of interaction noise in real-world scenarios: user noise, which captures ambiguity and variability in user interaction, and tool noise, which reflects failures and anomalies in tool execution. We introduce such perturbations into the training pipeline by modifying user interaction patterns and simulating tool execution results within the training environment. To stabilize training while encouraging agents to handle increasingly challenging imperfections, noise is applied to only a subset of rollouts and progressively increased in difficulty as the model adapts to the current noise level. Extensive experiments demonstrate that our approach consistently improves agent robustness under noisy and dynamic environments. Our analysis reveals that training under noise conditions also yields performance gains on idealized benchmarks, suggesting that controlled exposure to environmental noise promotes more generalizable reasoning and decision-making behaviors. Our findings highlight the importance of modeling interaction imperfections for bridging the gap between agent training and real-world deployment.