Leren handelen onder ruis: Versterken van agentrobuustheid door ruisrijke omgevingen

Samenvatting

Recente vooruitgang in grote taalmodellen (LLM's) heeft geleid tot de wijdverbreide inzet van LLM's als interactieve agenten die kunnen redeneren, plannen en hulpmiddelen gebruiken. Ondanks sterke prestaties op bestaande benchmarks vertonen dergelijke agenten vaak een opmerkelijke achteruitgang wanneer ze worden ingezet in realistische omgevingen, waar omgevingen inherent stochastisch en imperfect zijn. Wij stellen dat deze discrepantie voortkomt uit een fundamentele mismatch tussen geïdealiseerde trainingsomstandigheden en realistische interactiedynamieken, waarbij huidige paradigma's vertrouwen op zorgvuldig samengestelde taakinstructies en stabiele, goed gecontroleerde omgevingen. Om deze kloof te overbruggen, introduceren we NoisyAgent, een agentisch trainingsraamwerk dat expliciet omgevingsimperfecties integreert in het leerproces van de agent. We identificeren twee belangrijke bronnen van interactieruis in realistische scenario's: gebruikersruis, die ambiguïteit en variabiliteit in gebruikersinteractie vastlegt, en hulpmiddelruis, die storingen en afwijkingen in de uitvoering van hulpmiddelen weerspiegelt. We introduceren dergelijke verstoringen in de trainingspijplijn door gebruikersinteractiepatronen aan te passen en simulaties van hulpmiddeluitvoeringsresultaten in de trainingsomgeving. Om de training te stabiliseren terwijl agenten worden aangemoedigd om steeds uitdagendere imperfecties aan te pakken, wordt ruis slechts toegepast op een subset van rollouts en geleidelijk in moeilijkheidsgraad verhoogd naarmate het model zich aanpast aan het huidige ruisniveau. Uitgebreide experimenten tonen aan dat onze aanpak consequent de robuustheid van agenten onder ruisachtige en dynamische omgevingen verbetert. Onze analyse laat zien dat training onder ruisomstandigheden ook prestatieverbeteringen oplevert op geïdealiseerde benchmarks, wat suggereert dat gecontroleerde blootstelling aan omgevingsruis meer generaliseerbare redeneer- en besluitvormingsgedragingen bevordert. Onze bevindingen benadrukken het belang van het modelleren van interactie-imperfecties om de kloof tussen agenttraining en inzet in de echte wereld te overbruggen.

English

Recent advances in large language models (LLMs) have facilitated the widespread deployment of LLMs as interactive agents capable of reasoning, planning, and tool use. Despite strong performance on existing benchmarks, such agents often exhibit notable degradation when deployed in real-world settings, where environments are inherently stochastic and imperfect. We argue that this discrepancy arises from a fundamental mismatch between idealized training settings and real-world interaction dynamics, where current paradigms rely on carefully curated task instructions and stable, well-controlled environments. To address this gap, we propose NoisyAgent, an agentic training framework that explicitly incorporates environmental imperfections into the agent learning process. We identify two major sources of interaction noise in real-world scenarios: user noise, which captures ambiguity and variability in user interaction, and tool noise, which reflects failures and anomalies in tool execution. We introduce such perturbations into the training pipeline by modifying user interaction patterns and simulating tool execution results within the training environment. To stabilize training while encouraging agents to handle increasingly challenging imperfections, noise is applied to only a subset of rollouts and progressively increased in difficulty as the model adapts to the current noise level. Extensive experiments demonstrate that our approach consistently improves agent robustness under noisy and dynamic environments. Our analysis reveals that training under noise conditions also yields performance gains on idealized benchmarks, suggesting that controlled exposure to environmental noise promotes more generalizable reasoning and decision-making behaviors. Our findings highlight the importance of modeling interaction imperfections for bridging the gap between agent training and real-world deployment.