ChatPaper.aiChatPaper

TIDE: Trajektorienbasierte diagnostische Bewertung der Testzeitverbesserung in LLM-Agenten

TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

February 2, 2026
papers.authors: Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin
cs.AI

papers.abstract

Jüngste Fortschritte bei autonomen LLM-Agenten zeigen deren Fähigkeit, die Leistung durch iterative Interaktion mit der Umwelt zu verbessern. Wir definieren dieses Paradigma als Verbesserung zur Testzeit (Test-Time Improvement, TTI). Die Mechanismen, wie und warum TTI erfolgreich ist oder scheitert, bleiben jedoch weitgehend unklar, und bestehende Bewertungsmetriken erfassen weder ihre Aufgabendurchführungseffizienz, die Verhaltensanpassung nach fehlerhaften Aktionen noch den spezifischen Nutzungswert des Arbeitsgedächtnisses für die Aufgabenerfüllung. Um diese Lücken zu schließen, schlagen wir die Diagnostische Evaluierung zur Testzeitverbesserung (Test-time Improvement Diagnostic Evaluation, TIDE) vor – ein agenten- und umgebungsunabhängiges Framework, das TTI in drei umfassende und miteinander verbundene Dimensionen unterteilt. Das Framework misst (1) die allgemeine zeitliche Dynamik der Aufgabenerfüllung und identifiziert, ob die Leistung primär (2) durch rekursive Schleifenverhalten oder (3) durch belastenden akkumulierten Speicheraufwand eingeschränkt wird. Umfangreiche Experimente mit verschiedenen Agenten und Umgebungen zeigen mittels TIDE, dass zur Steigerung der Agentenleistung mehr nötig ist als das Hochskalieren interner Reasoning-Prozesse, und fordern eine explizite Optimierung der Interaktionsdynamik zwischen Agent und Umwelt.
English
Recent advances in autonomous LLM agents demonstrate their ability to improve performance through iterative interaction with the environment. We define this paradigm as Test-Time Improvement (TTI). However, the mechanisms under how and why TTI succeed or fail remain poorly understood, and existing evaluation metrics fail to capture their task optimization efficiency, behavior adaptation after erroneous actions, and the specific utility of working memory for task completion. To address these gaps, we propose Test-time Improvement Diagnostic Evaluation (TIDE), an agent-agnostic and environment-agnostic framework that decomposes TTI into three comprehensive and interconnected dimensions. The framework measures (1) the overall temporal dynamics of task completion and (2) identifies whether performance is primarily constrained by recursive looping behaviors or (3) by burdensome accumulated memory. Through extensive experiments across diverse agents and environments, TIDE highlights that improving agent performance requires more than scaling internal reasoning, calling for explicitly optimizing the interaction dynamics between the agent and the environment.
PDF291February 6, 2026