Самообучающиеся агенты на основе больших языковых моделей во время тестирования
Self-Improving LLM Agents at Test-Time
October 9, 2025
Авторы: Emre Can Acikgoz, Cheng Qian, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
Аннотация
Один из подходов к тонкой настройке языковых моделей (LM) основывается на создании больших обучающих наборов данных, исходя из предположения, что высокая количественная и качественная разнородность позволит моделям обобщать знания для новых задач после обучения. На практике сбор больших наборов данных неэффективен, а их обучение чрезмерно дорого; что хуже, нет гарантии, что итоговая модель будет справляться со сложными сценариями или лучше обобщать. Более того, существующие методы редко оценивают, предоставляет ли обучающий образец новую информацию или является избыточным по отношению к уже усвоенным знаниям модели, что приводит к ненужным затратам. В данной работе мы исследуем новый метод самосовершенствования на этапе тестирования для создания более эффективных и обобщаемых агентных LM "на лету". Предложенный алгоритм можно свести к трем шагам: (i) сначала он идентифицирует образцы, с которыми модель испытывает трудности (самоосознание), (ii) затем генерирует похожие примеры на основе обнаруженных неопределенных образцов (самоаугментация данных) и (iii) использует эти вновь созданные образцы для тонкой настройки на этапе тестирования (самосовершенствование). Мы изучаем два варианта этого подхода: Самосовершенствование на этапе тестирования (TT-SI), где та же модель генерирует дополнительные обучающие примеры из своих неопределенных случаев и затем обучается на них, и сравниваем его с Дистилляцией на этапе тестирования (TT-D), где более мощная модель генерирует похожие примеры для неопределенных случаев, позволяя ученику адаптироваться с использованием дистиллированного надзора. Эмпирические оценки на различных бенчмарках для агентов показывают, что TT-SI улучшает производительность с абсолютным приростом точности на +5,48% в среднем по всем бенчмаркам и превосходит другие стандартные методы обучения, при этом используя в 68 раз меньше обучающих образцов. Наши результаты подчеркивают перспективность TT-SI, демонстрируя потенциал алгоритмов самосовершенствования на этапе тестирования как новой парадигмы для создания более способных агентов, стремящихся к самоэволюции.
English
One paradigm of language model (LM) fine-tuning relies on creating large
training datasets, under the assumption that high quantity and diversity will
enable models to generalize to novel tasks after post-training. In practice,
gathering large sets of data is inefficient, and training on them is
prohibitively expensive; worse, there is no guarantee that the resulting model
will handle complex scenarios or generalize better. Moreover, existing
techniques rarely assess whether a training sample provides novel information
or is redundant with the knowledge already acquired by the model, resulting in
unnecessary costs. In this work, we explore a new test-time self-improvement
method to create more effective and generalizable agentic LMs on-the-fly. The
proposed algorithm can be summarized in three steps: (i) first it identifies
the samples that model struggles with (self-awareness), (ii) then generates
similar examples from detected uncertain samples (self-data augmentation), and
(iii) uses these newly generated samples at test-time fine-tuning
(self-improvement). We study two variants of this approach: Test-Time
Self-Improvement (TT-SI), where the same model generates additional training
examples from its own uncertain cases and then learns from them, and contrast
this approach with Test-Time Distillation (TT-D), where a stronger model
generates similar examples for uncertain cases, enabling student to adapt using
distilled supervision. Empirical evaluations across different agent benchmarks
demonstrate that TT-SI improves the performance with +5.48% absolute accuracy
gain on average across all benchmarks and surpasses other standard learning
methods, yet using 68x less training samples. Our findings highlight the
promise of TT-SI, demonstrating the potential of self-improvement algorithms at
test-time as a new paradigm for building more capable agents toward
self-evolution.