¿Cómo puede la reformulación de entradas mejorar la precisión en el uso de herramientas en un entorno dinámico complejo? Un estudio sobre τ-bench
How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on τ-bench
August 28, 2025
Autores: Venkatesh Mishra, Amir Saeidi, Satyam Raj, Mutsumi Nakamura, Jayanth Srinivasa, Gaowen Liu, Ali Payani, Chitta Baral
cs.AI
Resumen
Los recientes avances en las capacidades de razonamiento y planificación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido su potencial como agentes autónomos capaces de utilizar herramientas en entornos dinámicos. Sin embargo, en entornos conversacionales de múltiples turnos como tau-bench, estos agentes suelen tener dificultades con el razonamiento consistente, el cumplimiento de políticas específicas del dominio y la extracción de información correcta a lo largo de un horizonte prolongado de llamadas a herramientas y conversaciones. Para capturar y mitigar estos fallos, realizamos un análisis manual exhaustivo de los errores comunes que ocurren en las trayectorias de conversación. Luego, experimentamos con reformulaciones de las entradas al agente que llama a herramientas para mejorar la toma de decisiones del agente. Finalmente, proponemos el marco de Multi-Agente de Reformulación de Entradas (IRMA, por sus siglas en inglés), que reformula automáticamente las consultas de los usuarios aumentadas con reglas relevantes del dominio y sugerencias de herramientas para que el agente que llama a herramientas se enfoque en ellas. Los resultados muestran que IRMA supera significativamente a ReAct, Function Calling y Self-Reflection en un 16,1%, 12,7% y 19,1%, respectivamente, en las puntuaciones generales de pass^5. Estos hallazgos resaltan la superior confiabilidad y consistencia de IRMA en comparación con otros métodos en entornos dinámicos.
English
Recent advances in reasoning and planning capabilities of large language
models (LLMs) have enabled their potential as autonomous agents capable of tool
use in dynamic environments. However, in multi-turn conversational environments
like tau-bench, these agents often struggle with consistent reasoning,
adherence to domain-specific policies, and extracting correct information over
a long horizon of tool-calls and conversation. To capture and mitigate these
failures, we conduct a comprehensive manual analysis of the common errors
occurring in the conversation trajectories. We then experiment with
reformulations of inputs to the tool-calling agent for improvement in agent
decision making. Finally, we propose the Input-Reformulation Multi-Agent (IRMA)
framework, which automatically reformulates user queries augmented with
relevant domain rules and tool suggestions for the tool-calling agent to focus
on. The results show that IRMA significantly outperforms ReAct, Function
Calling, and Self-Reflection by 16.1%, 12.7%, and 19.1%, respectively, in
overall pass^5 scores. These findings highlight the superior reliability and
consistency of IRMA compared to other methods in dynamic environments.