TIDE: Trajectorie-gebaseerde Diagnostische Evaluatie van Test-Tijd Verbetering in LLM-Agenten
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
February 2, 2026
Auteurs: Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin
cs.AI
Samenvatting
Recente vooruitgang in autonome LLM-agenten toont aan dat zij hun prestaties kunnen verbeteren door iteratieve interactie met de omgeving. Wij definiëren dit paradigma als Test-Time Improvement (TTI). De mechanismen achter hoe en waarom TTI slaagt of faalt, blijven echter slecht begrepen, en bestaande evaluatiemetrics vangen hun taakoptimalisatie-efficiëntie, gedragsaanpassing na foutieve acties en de specifieke utility van het werkgeheugen voor taakvoltooiing niet goed af. Om deze lacunes aan te pakken, stellen wij Test-time Improvement Diagnostic Evaluation (TIDE) voor, een agent- en omgevingsagnostisch raamwerk dat TTI ontleedt in drie uitgebreide en onderling verbonden dimensies. Het raamwerk meet (1) de algemene temporele dynamiek van taakvoltooiing en (2) identificeert of de prestaties primair worden beperkt door recursief loopgedrag of (3) door belastende opgestapelde geheugeninhoud. Uitgebreide experimenten met diverse agenten en omgevingen tonen met TIDE aan dat het verbeteren van agentprestaties meer vereist dan het opschalen van interne redeneerprocessen, en pleiten voor het expliciet optimaliseren van de interactiedynamiek tussen de agent en de omgeving.
English
Recent advances in autonomous LLM agents demonstrate their ability to improve performance through iterative interaction with the environment. We define this paradigm as Test-Time Improvement (TTI). However, the mechanisms under how and why TTI succeed or fail remain poorly understood, and existing evaluation metrics fail to capture their task optimization efficiency, behavior adaptation after erroneous actions, and the specific utility of working memory for task completion. To address these gaps, we propose Test-time Improvement Diagnostic Evaluation (TIDE), an agent-agnostic and environment-agnostic framework that decomposes TTI into three comprehensive and interconnected dimensions. The framework measures (1) the overall temporal dynamics of task completion and (2) identifies whether performance is primarily constrained by recursive looping behaviors or (3) by burdensome accumulated memory. Through extensive experiments across diverse agents and environments, TIDE highlights that improving agent performance requires more than scaling internal reasoning, calling for explicitly optimizing the interaction dynamics between the agent and the environment.