ChatPaper.aiChatPaper

TIDE : Évaluation Diagnostique Basée sur les Trajectoires de l'Amélioration en Temps de Test des Agents LLM

TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

February 2, 2026
papers.authors: Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin
cs.AI

papers.abstract

Les récentes avancées des agents LLM autonomes démontrent leur capacité à améliorer leurs performances grâce à une interaction itérative avec l'environnement. Nous définissons ce paradigme comme l'Amélioration au Moment du Test (TTI). Cependant, les mécanismes expliquant pourquoi et comment la TTI réussit ou échoue restent mal compris, et les métriques d'évaluation existantes ne parviennent pas à capturer son efficacité d'optimisation des tâches, l'adaptation du comportement après des actions erronées, et l'utilité spécifique de la mémoire de travail pour l'accomplissement des tâches. Pour combler ces lacunes, nous proposons l'Évaluation Diagnostique de l'Amélioration au Moment du Test (TIDE), un cadre indépendant de l'agent et de l'environnement qui décompose la TTI en trois dimensions complètes et interconnectées. Le cadre mesure (1) la dynamique temporelle globale de l'accomplissement des tâches et (2) identifie si la performance est principalement contrainte par des comportements de bouclage récursif ou (3) par une accumulation excessive de mémoire. Grâce à des expériences approfondies sur divers agents et environnements, TIDE révèle qu'améliorer la performance des agents nécessite plus qu'une augmentation de la raisonnement interne, et exige d'optimiser explicitement la dynamique d'interaction entre l'agent et l'environnement.
English
Recent advances in autonomous LLM agents demonstrate their ability to improve performance through iterative interaction with the environment. We define this paradigm as Test-Time Improvement (TTI). However, the mechanisms under how and why TTI succeed or fail remain poorly understood, and existing evaluation metrics fail to capture their task optimization efficiency, behavior adaptation after erroneous actions, and the specific utility of working memory for task completion. To address these gaps, we propose Test-time Improvement Diagnostic Evaluation (TIDE), an agent-agnostic and environment-agnostic framework that decomposes TTI into three comprehensive and interconnected dimensions. The framework measures (1) the overall temporal dynamics of task completion and (2) identifies whether performance is primarily constrained by recursive looping behaviors or (3) by burdensome accumulated memory. Through extensive experiments across diverse agents and environments, TIDE highlights that improving agent performance requires more than scaling internal reasoning, calling for explicitly optimizing the interaction dynamics between the agent and the environment.
PDF291February 6, 2026