Aprendizaje para Actuar bajo Ruido: Mejora de la Robustez del Agente mediante Entornos Ruidosos

Resumen

Los avances recientes en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han facilitado el despliegue generalizado de LLMs como agentes interactivos capaces de razonar, planificar y utilizar herramientas. A pesar de su buen rendimiento en los puntos de referencia existentes, estos agentes a menudo presentan una degradación notable cuando se despliegan en entornos del mundo real, donde los entornos son inherentemente estocásticos e imperfectos. Argumentamos que esta discrepancia surge de un desajuste fundamental entre los entornos de entrenamiento idealizados y las dinámicas de interacción del mundo real, donde los paradigmas actuales dependen de instrucciones de tareas cuidadosamente seleccionadas y entornos estables y bien controlados. Para abordar esta brecha, proponemos NoisyAgent, un marco de entrenamiento agéntico que incorpora explícitamente las imperfecciones ambientales en el proceso de aprendizaje del agente. Identificamos dos fuentes principales de ruido de interacción en escenarios del mundo real: el ruido del usuario, que captura la ambigüedad y variabilidad en la interacción con el usuario, y el ruido de la herramienta, que refleja fallos y anomalías en la ejecución de herramientas. Introducimos estas perturbaciones en el pipeline de entrenamiento modificando los patrones de interacción del usuario y simulando los resultados de la ejecución de herramientas dentro del entorno de entrenamiento. Para estabilizar el entrenamiento mientras se anima a los agentes a manejar imperfecciones cada vez más desafiantes, el ruido se aplica solo a un subconjunto de las trayectorias y se incrementa progresivamente en dificultad a medida que el modelo se adapta al nivel de ruido actual. Experimentos exhaustivos demuestran que nuestro enfoque mejora consistentemente la robustez del agente en entornos ruidosos y dinámicos. Nuestro análisis revela que el entrenamiento bajo condiciones de ruido también produce ganancias de rendimiento en puntos de referencia idealizados, lo que sugiere que la exposición controlada al ruido ambiental promueve comportamientos de razonamiento y toma de decisiones más generalizables. Nuestros hallazgos resaltan la importancia de modelar las imperfecciones de interacción para cerrar la brecha entre el entrenamiento de agentes y el despliegue en el mundo real.

English

Recent advances in large language models (LLMs) have facilitated the widespread deployment of LLMs as interactive agents capable of reasoning, planning, and tool use. Despite strong performance on existing benchmarks, such agents often exhibit notable degradation when deployed in real-world settings, where environments are inherently stochastic and imperfect. We argue that this discrepancy arises from a fundamental mismatch between idealized training settings and real-world interaction dynamics, where current paradigms rely on carefully curated task instructions and stable, well-controlled environments. To address this gap, we propose NoisyAgent, an agentic training framework that explicitly incorporates environmental imperfections into the agent learning process. We identify two major sources of interaction noise in real-world scenarios: user noise, which captures ambiguity and variability in user interaction, and tool noise, which reflects failures and anomalies in tool execution. We introduce such perturbations into the training pipeline by modifying user interaction patterns and simulating tool execution results within the training environment. To stabilize training while encouraging agents to handle increasingly challenging imperfections, noise is applied to only a subset of rollouts and progressively increased in difficulty as the model adapts to the current noise level. Extensive experiments demonstrate that our approach consistently improves agent robustness under noisy and dynamic environments. Our analysis reveals that training under noise conditions also yields performance gains on idealized benchmarks, suggesting that controlled exposure to environmental noise promotes more generalizable reasoning and decision-making behaviors. Our findings highlight the importance of modeling interaction imperfections for bridging the gap between agent training and real-world deployment.