Handeln unter Rauschen lernen: Verbesserung der Robustheit von Agenten durch verrauschte Umgebungen

Zusammenfassung

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die breite Einführung von LLMs als interaktive Agenten ermöglicht, die zu logischem Schließen, Planung und Werkzeugnutzung fähig sind. Trotz starker Leistung auf bestehenden Benchmarks zeigen solche Agenten oft eine deutliche Verschlechterung, wenn sie in realen Umgebungen eingesetzt werden, die inhärent stochastisch und unvollkommen sind. Wir argumentieren, dass diese Diskrepanz aus einer grundlegenden Diskrepanz zwischen idealisierten Trainingsbedingungen und realen Interaktionsdynamiken entsteht, bei denen aktuelle Paradigmen auf sorgfältig kuratierte Aufgabenanweisungen und stabile, gut kontrollierte Umgebungen angewiesen sind. Um diese Lücke zu schließen, schlagen wir NoisyAgent vor, ein agentisches Trainingsframework, das Umgebungsunvollkommenheiten explizit in den Agentenlernprozess einbezieht. Wir identifizieren zwei Hauptquellen von Interaktionsrauschen in realen Szenarien: Benutzerrauschen, das Mehrdeutigkeiten und Variabilität in der Benutzerinteraktion erfasst, und Werkzeugrauschen, das Fehler und Anomalien bei der Werkzeugausführung widerspiegelt. Wir führen solche Störungen in die Trainingspipeline ein, indem wir Benutzerinteraktionsmuster modifizieren und Werkzeugausführungsergebnisse innerhalb der Trainingsumgebung simulieren. Um das Training zu stabilisieren und gleichzeitig Agenten zu ermutigen, zunehmend herausfordernde Unvollkommenheiten zu bewältigen, wird Rauschen nur auf eine Teilmenge der Rollouts angewendet und in der Schwierigkeit schrittweise erhöht, sobald sich das Modell an das aktuelle Rauschniveau anpasst. Umfangreiche Experimente zeigen, dass unser Ansatz die Agentenrobustheit unter verrauschten und dynamischen Umgebungen konsistent verbessert. Unsere Analyse zeigt, dass das Training unter Rauschbedingungen auch Leistungssteigerungen auf idealisierten Benchmarks erbringt, was darauf hindeutet, dass kontrollierte Exposition gegenüber Umgebungsrauschen verallgemeinerbarere Fähigkeiten im logischen Schließen und Entscheiden fördert. Unsere Ergebnisse unterstreichen die Bedeutung der Modellierung von Interaktionsunvollkommenheiten, um die Kluft zwischen Agententraining und realem Einsatz zu überbrücken.

English

Recent advances in large language models (LLMs) have facilitated the widespread deployment of LLMs as interactive agents capable of reasoning, planning, and tool use. Despite strong performance on existing benchmarks, such agents often exhibit notable degradation when deployed in real-world settings, where environments are inherently stochastic and imperfect. We argue that this discrepancy arises from a fundamental mismatch between idealized training settings and real-world interaction dynamics, where current paradigms rely on carefully curated task instructions and stable, well-controlled environments. To address this gap, we propose NoisyAgent, an agentic training framework that explicitly incorporates environmental imperfections into the agent learning process. We identify two major sources of interaction noise in real-world scenarios: user noise, which captures ambiguity and variability in user interaction, and tool noise, which reflects failures and anomalies in tool execution. We introduce such perturbations into the training pipeline by modifying user interaction patterns and simulating tool execution results within the training environment. To stabilize training while encouraging agents to handle increasingly challenging imperfections, noise is applied to only a subset of rollouts and progressively increased in difficulty as the model adapts to the current noise level. Extensive experiments demonstrate that our approach consistently improves agent robustness under noisy and dynamic environments. Our analysis reveals that training under noise conditions also yields performance gains on idealized benchmarks, suggesting that controlled exposure to environmental noise promotes more generalizable reasoning and decision-making behaviors. Our findings highlight the importance of modeling interaction imperfections for bridging the gap between agent training and real-world deployment.