ChatPaper.aiChatPaper

複雑な動的環境におけるツール使用精度を向上させるための入力再構成の効果:τ-benchを用いた研究

How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on τ-bench

August 28, 2025
著者: Venkatesh Mishra, Amir Saeidi, Satyam Raj, Mutsumi Nakamura, Jayanth Srinivasa, Gaowen Liu, Ali Payani, Chitta Baral
cs.AI

要旨

大規模言語モデル(LLMs)の推論および計画能力の最近の進展により、動的な環境におけるツール使用が可能な自律エージェントとしての潜在性が示されている。しかし、tau-benchのような多ターン会話環境では、これらのエージェントは一貫した推論、ドメイン固有のポリシーへの準拠、および長期的なツール呼び出しと会話における正確な情報の抽出に苦戦することが多い。これらの失敗を捕捉し緩和するため、会話軌跡において発生する一般的なエラーを包括的に手動分析した。次に、エージェントの意思決定を改善するために、ツール呼び出しエージェントへの入力の再構成を実験した。最後に、ユーザークエリを関連するドメインルールとツール提案で補強し、ツール呼び出しエージェントが焦点を当てるべき内容を自動的に再構成するInput-Reformulation Multi-Agent(IRMA)フレームワークを提案する。結果は、IRMAが全体のpass^5スコアにおいて、ReAct、Function Calling、およびSelf-Reflectionをそれぞれ16.1%、12.7%、19.1%上回ることを示している。これらの結果は、動的な環境においてIRMAが他の方法と比較して優れた信頼性と一貫性を有することを強調している。
English
Recent advances in reasoning and planning capabilities of large language models (LLMs) have enabled their potential as autonomous agents capable of tool use in dynamic environments. However, in multi-turn conversational environments like tau-bench, these agents often struggle with consistent reasoning, adherence to domain-specific policies, and extracting correct information over a long horizon of tool-calls and conversation. To capture and mitigate these failures, we conduct a comprehensive manual analysis of the common errors occurring in the conversation trajectories. We then experiment with reformulations of inputs to the tool-calling agent for improvement in agent decision making. Finally, we propose the Input-Reformulation Multi-Agent (IRMA) framework, which automatically reformulates user queries augmented with relevant domain rules and tool suggestions for the tool-calling agent to focus on. The results show that IRMA significantly outperforms ReAct, Function Calling, and Self-Reflection by 16.1%, 12.7%, and 19.1%, respectively, in overall pass^5 scores. These findings highlight the superior reliability and consistency of IRMA compared to other methods in dynamic environments.
PDF152September 2, 2025