TIDE: Траекторная диагностическая оценка улучшения языковых моделей в режиме тестирования для агентов
TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents
February 2, 2026
Авторы: Hang Yan, Xinyu Che, Fangzhi Xu, Qiushi Sun, Zichen Ding, Kanzhi Cheng, Jian Zhang, Tao Qin, Jun Liu, Qika Lin
cs.AI
Аннотация
Последние достижения в области автономных LLM-агентов демонстрируют их способность повышать производительность за счет итерационного взаимодействия со средой. Мы определяем эту парадигму как улучшение во время тестирования (Test-Time Improvement, TTI). Однако механизмы, объясняющие, как и почему TTI приводит к успеху или неудаче, остаются малоизученными, а существующие метрики оценки не позволяют зафиксировать эффективность оптимизации задач, адаптацию поведения после ошибочных действий и конкретную полезность рабочей памяти для выполнения задачи. Для устранения этих пробелов мы предлагаем Диагностическую оценку улучшения во время тестирования (Test-time Improvement Diagnostic Evaluation, TIDE) — агент-независимую и сред-независимую структуру, которая декомпозирует TTI на три всеобъемлющих и взаимосвязанных измерения. Данная структура измеряет (1) общую временную динамику выполнения задачи и (2) определяет, ограничивается ли производительность в первую очередь рекурсивными циклическими поведениями или (3) обременительной накопленной памятью. В ходе масштабных экспериментов с различными агентами и средами TIDE показывает, что для повышения производительности агента недостаточно просто наращивать внутренние рассуждения, что указывает на необходимость явной оптимизации динамики взаимодействия между агентом и средой.
English
Recent advances in autonomous LLM agents demonstrate their ability to improve performance through iterative interaction with the environment. We define this paradigm as Test-Time Improvement (TTI). However, the mechanisms under how and why TTI succeed or fail remain poorly understood, and existing evaluation metrics fail to capture their task optimization efficiency, behavior adaptation after erroneous actions, and the specific utility of working memory for task completion. To address these gaps, we propose Test-time Improvement Diagnostic Evaluation (TIDE), an agent-agnostic and environment-agnostic framework that decomposes TTI into three comprehensive and interconnected dimensions. The framework measures (1) the overall temporal dynamics of task completion and (2) identifies whether performance is primarily constrained by recursive looping behaviors or (3) by burdensome accumulated memory. Through extensive experiments across diverse agents and environments, TIDE highlights that improving agent performance requires more than scaling internal reasoning, calling for explicitly optimizing the interaction dynamics between the agent and the environment.