¿Cómo puede la reformulación de entradas mejorar la precisión en el uso de herramientas en un entorno dinámico complejo? Un estudio sobre τ-bench

Resumen

Los recientes avances en las capacidades de razonamiento y planificación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido su potencial como agentes autónomos capaces de utilizar herramientas en entornos dinámicos. Sin embargo, en entornos conversacionales de múltiples turnos como tau-bench, estos agentes suelen tener dificultades con el razonamiento consistente, el cumplimiento de políticas específicas del dominio y la extracción de información correcta a lo largo de un horizonte prolongado de llamadas a herramientas y conversaciones. Para capturar y mitigar estos fallos, realizamos un análisis manual exhaustivo de los errores comunes que ocurren en las trayectorias de conversación. Luego, experimentamos con reformulaciones de las entradas al agente que llama a herramientas para mejorar la toma de decisiones del agente. Finalmente, proponemos el marco de Multi-Agente de Reformulación de Entradas (IRMA, por sus siglas en inglés), que reformula automáticamente las consultas de los usuarios aumentadas con reglas relevantes del dominio y sugerencias de herramientas para que el agente que llama a herramientas se enfoque en ellas. Los resultados muestran que IRMA supera significativamente a ReAct, Function Calling y Self-Reflection en un 16,1%, 12,7% y 19,1%, respectivamente, en las puntuaciones generales de pass^5. Estos hallazgos resaltan la superior confiabilidad y consistencia de IRMA en comparación con otros métodos en entornos dinámicos.

English

Recent advances in reasoning and planning capabilities of large language models (LLMs) have enabled their potential as autonomous agents capable of tool use in dynamic environments. However, in multi-turn conversational environments like tau-bench, these agents often struggle with consistent reasoning, adherence to domain-specific policies, and extracting correct information over a long horizon of tool-calls and conversation. To capture and mitigate these failures, we conduct a comprehensive manual analysis of the common errors occurring in the conversation trajectories. We then experiment with reformulations of inputs to the tool-calling agent for improvement in agent decision making. Finally, we propose the Input-Reformulation Multi-Agent (IRMA) framework, which automatically reformulates user queries augmented with relevant domain rules and tool suggestions for the tool-calling agent to focus on. The results show that IRMA significantly outperforms ReAct, Function Calling, and Self-Reflection by 16.1%, 12.7%, and 19.1%, respectively, in overall pass^5 scores. These findings highlight the superior reliability and consistency of IRMA compared to other methods in dynamic environments.

¿Cómo puede la reformulación de entradas mejorar la precisión en el uso de herramientas en un entorno dinámico complejo? Un estudio sobre τ-bench

How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on τ-bench

Resumen

Support