TIDE: LLMエージェントにおけるテスト時改善の軌跡に基づく診断的評価
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
February 2, 2026
著者: Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin
cs.AI
要旨
自律的なLLMエージェントの最近の進歩は、環境との反復的な相互作用を通じて性能を向上させる能力を示している。我々はこのパラダイムをテスト時改善(TTI)と定義する。しかし、TTIが成功または失敗するメカニズムについては未解明の部分が多く、既存の評価指標は、タスク最適化効率、誤った行動後の行動適応、タスク完了のための作業記憶の具体的効用を捉えられていない。これらの課題を解決するため、我々はテスト時改善診断評価(TIDE)を提案する。これはエージェント非依存・環境非依存のフレームワークであり、TTIを3つの包括的かつ相互接続された次元に分解する。本フレームワークは、(1) タスク完了の全体的な時間的ダイナミクスを測定し、(2) 性能が主に再帰的ループ行動によって制約されているか、(3) あるいは負荷の蓄積した記憶によって制約されているかを特定する。多様なエージェントと環境における広範な実験を通じて、TIDEはエージェント性能の向上には内部推論のスケーリング以上の要素が重要であり、エージェントと環境間の相互作用ダイナミクスを明示的に最適化する必要性があることを明らかにする。
English
Recent advances in autonomous LLM agents demonstrate their ability to improve performance through iterative interaction with the environment. We define this paradigm as Test-Time Improvement (TTI). However, the mechanisms under how and why TTI succeed or fail remain poorly understood, and existing evaluation metrics fail to capture their task optimization efficiency, behavior adaptation after erroneous actions, and the specific utility of working memory for task completion. To address these gaps, we propose Test-time Improvement Diagnostic Evaluation (TIDE), an agent-agnostic and environment-agnostic framework that decomposes TTI into three comprehensive and interconnected dimensions. The framework measures (1) the overall temporal dynamics of task completion and (2) identifies whether performance is primarily constrained by recursive looping behaviors or (3) by burdensome accumulated memory. Through extensive experiments across diverse agents and environments, TIDE highlights that improving agent performance requires more than scaling internal reasoning, calling for explicitly optimizing the interaction dynamics between the agent and the environment.