TIDE: LLM 에이전트의 테스트 타임 성능 향상에 대한 궤적 기반 진단 평가
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
February 2, 2026
저자: Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin
cs.AI
초록
최신 자율 LLM 에이전트는 환경과의 반복적 상호작용을 통해 성능을 향상시킬 수 있는 능력을 보여주고 있습니다. 우리는 이러한 패러다임을 시험 시간 향상(TTI)으로 정의합니다. 그러나 TTI가 성공하거나 실패하는 메커니즘에 대한 이해는 여전히 부족하며, 기존 평가 지표는 TTI의 작업 최적화 효율성, 오작동 후 행동 적응, 작업 완성을 위한 작업 기억의 구체적 유용성을 제대로 포착하지 못하고 있습니다. 이러한 격차를 해결하기 위해 우리는 TTI를 세 가지 포괄적이고 상호 연결된 차원으로 분해하는 에이전트 및 환경 중립적 프레임워크인 시험 시간 향상 진단 평가(TIDE)를 제안합니다. 이 프레임워크는 (1) 작업 완성의 전반적인 시간적 역학을 측정하고, (2) 성능이 주로 순환적 반복 행동에 의해 제약되는지, 아니면 (3) 부담스러운 누적 메모리에 의해 제약되는지를 식별합니다. 다양한 에이전트와 환경을 대상으로 한 광범위한 실험을 통해 TIDE는 에이전트 성능 향상을 위해 내부 추론 확장 이상의 것이 필요하며, 에이전트와 환경 간 상호작용 역학을 명시적으로 최적화할 필요가 있음을 보여줍니다.
English
Recent advances in autonomous LLM agents demonstrate their ability to improve performance through iterative interaction with the environment. We define this paradigm as Test-Time Improvement (TTI). However, the mechanisms under how and why TTI succeed or fail remain poorly understood, and existing evaluation metrics fail to capture their task optimization efficiency, behavior adaptation after erroneous actions, and the specific utility of working memory for task completion. To address these gaps, we propose Test-time Improvement Diagnostic Evaluation (TIDE), an agent-agnostic and environment-agnostic framework that decomposes TTI into three comprehensive and interconnected dimensions. The framework measures (1) the overall temporal dynamics of task completion and (2) identifies whether performance is primarily constrained by recursive looping behaviors or (3) by burdensome accumulated memory. Through extensive experiments across diverse agents and environments, TIDE highlights that improving agent performance requires more than scaling internal reasoning, calling for explicitly optimizing the interaction dynamics between the agent and the environment.