Обучение действиям в условиях шума: повышение устойчивости агента посредством зашумленных сред

Аннотация

Последние достижения в области больших языковых моделей (БЯМ) способствовали широкому внедрению БЯМ в качестве интерактивных агентов, способных к рассуждению, планированию и использованию инструментов. Несмотря на высокую производительность на существующих эталонах, такие агенты часто демонстрируют заметное ухудшение при развертывании в реальных условиях, где среда по своей природе стохастична и несовершенна. Мы утверждаем, что это расхождение обусловлено фундаментальным несоответствием между идеализированными условиями обучения и динамикой реального взаимодействия, поскольку текущие парадигмы опираются на тщательно подобранные инструкции задач и стабильные, хорошо контролируемые среды. Для устранения этого разрыва мы предлагаем NoisyAgent — фреймворк для обучения агентов, который явным образом включает несовершенства среды в процесс обучения агента. Мы выделяем два основных источника интерактивного шума в реальных сценариях: пользовательский шум, отражающий неоднозначность и изменчивость взаимодействия с пользователем, и инструментальный шум, отражающий сбои и аномалии в выполнении инструментов. Мы вводим такие возмущения в обучающий конвейер путем изменения паттернов взаимодействия с пользователем и имитации результатов выполнения инструментов в учебной среде. Для стабилизации обучения при одновременном стимулировании агентов справляться с все более сложными несовершенствами шум применяется только к подмножеству траекторий и постепенно усложняется по мере адаптации модели к текущему уровню шума. Обширные эксперименты демонстрируют, что наш подход последовательно повышает устойчивость агентов в зашумленных и динамичных средах. Наш анализ показывает, что обучение в условиях шума также приводит к повышению производительности на идеализированных эталонах, что позволяет предположить, что контролируемое воздействие шума среды способствует более обобщаемым моделям рассуждения и принятия решений. Наши выводы подчеркивают важность моделирования несовершенств взаимодействия для преодоления разрыва между обучением агентов и их реальным развертыванием.

English

Recent advances in large language models (LLMs) have facilitated the widespread deployment of LLMs as interactive agents capable of reasoning, planning, and tool use. Despite strong performance on existing benchmarks, such agents often exhibit notable degradation when deployed in real-world settings, where environments are inherently stochastic and imperfect. We argue that this discrepancy arises from a fundamental mismatch between idealized training settings and real-world interaction dynamics, where current paradigms rely on carefully curated task instructions and stable, well-controlled environments. To address this gap, we propose NoisyAgent, an agentic training framework that explicitly incorporates environmental imperfections into the agent learning process. We identify two major sources of interaction noise in real-world scenarios: user noise, which captures ambiguity and variability in user interaction, and tool noise, which reflects failures and anomalies in tool execution. We introduce such perturbations into the training pipeline by modifying user interaction patterns and simulating tool execution results within the training environment. To stabilize training while encouraging agents to handle increasingly challenging imperfections, noise is applied to only a subset of rollouts and progressively increased in difficulty as the model adapts to the current noise level. Extensive experiments demonstrate that our approach consistently improves agent robustness under noisy and dynamic environments. Our analysis reveals that training under noise conditions also yields performance gains on idealized benchmarks, suggesting that controlled exposure to environmental noise promotes more generalizable reasoning and decision-making behaviors. Our findings highlight the importance of modeling interaction imperfections for bridging the gap between agent training and real-world deployment.