TIDE: Evaluación Diagnóstica Basada en Trayectorias para la Mejora en Tiempo de Prueba en Agentes de LLM
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
February 2, 2026
Autores: Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin
cs.AI
Resumen
Los recientes avances en agentes autónomos de LLM demuestran su capacidad para mejorar el rendimiento mediante la interacción iterativa con el entorno. Definimos este paradigma como Mejora en Tiempo de Prueba (TTI). Sin embargo, los mecanismos subyacentes sobre cómo y por qué la TTI tiene éxito o fracasa siguen siendo poco comprendidos, y las métricas de evaluación existentes no logran capturar su eficiencia en la optimización de tareas, la adaptación del comportamiento tras acciones erróneas y la utilidad específica de la memoria de trabajo para la finalización de tareas. Para abordar estas brechas, proponemos Evaluación Diagnóstica de Mejora en Tiempo de Prueba (TIDE), un marco independiente del agente y del entorno que descompone la TTI en tres dimensiones integrales e interconectadas. El marco mide (1) la dinámica temporal general de la finalización de tareas e (2) identifica si el rendimiento está limitado principalmente por comportamientos de bucle recursivo o (3) por una memoria acumulada excesivamente gravosa. A través de experimentos exhaustivos en diversos agentes y entornos, TIDE destaca que mejorar el rendimiento del agente requiere algo más que escalar el razonamiento interno, exigiendo optimizar explícitamente la dinámica de interacción entre el agente y el entorno.
English
Recent advances in autonomous LLM agents demonstrate their ability to improve performance through iterative interaction with the environment. We define this paradigm as Test-Time Improvement (TTI). However, the mechanisms under how and why TTI succeed or fail remain poorly understood, and existing evaluation metrics fail to capture their task optimization efficiency, behavior adaptation after erroneous actions, and the specific utility of working memory for task completion. To address these gaps, we propose Test-time Improvement Diagnostic Evaluation (TIDE), an agent-agnostic and environment-agnostic framework that decomposes TTI into three comprehensive and interconnected dimensions. The framework measures (1) the overall temporal dynamics of task completion and (2) identifies whether performance is primarily constrained by recursive looping behaviors or (3) by burdensome accumulated memory. Through extensive experiments across diverse agents and environments, TIDE highlights that improving agent performance requires more than scaling internal reasoning, calling for explicitly optimizing the interaction dynamics between the agent and the environment.