テスト時における自己改善型LLMエージェント
Self-Improving LLM Agents at Test-Time
October 9, 2025
著者: Emre Can Acikgoz, Cheng Qian, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
要旨
言語モデル(LM)のファインチューニングにおける一つのパラダイムは、大量のトレーニングデータセットを作成することに依存しており、その量と多様性がポストトレーニング後の新規タスクへの汎化を可能にすると仮定しています。実際には、大規模なデータセットを収集することは非効率的であり、それらをトレーニングすることは非常に高コストです。さらに悪いことに、結果として得られるモデルが複雑なシナリオを処理したり、より良い汎化性能を発揮する保証はありません。加えて、既存の技術では、トレーニングサンプルが新たな情報を提供するか、モデルが既に獲得した知識と重複しているかを評価することはほとんどなく、不必要なコストが発生しています。本研究では、より効果的で汎化性の高いエージェンシーLMをその場で作成するための新しいテスト時自己改善手法を探求します。提案されたアルゴリズムは、以下の3つのステップに要約できます:(i) まず、モデルが苦手とするサンプルを特定する(自己認識)、(ii) 次に、検出された不確実なサンプルから類似の例を生成する(自己データ拡張)、(iii) そして、これらの新しく生成されたサンプルをテスト時のファインチューニングに使用する(自己改善)。このアプローチの2つのバリエーションを研究します:テスト時自己改善(TT-SI)では、同じモデルが自身の不確実なケースから追加のトレーニング例を生成し、それらから学習します。これに対して、テスト時蒸留(TT-D)では、より強力なモデルが不確実なケースに対して類似の例を生成し、学生モデルが蒸留された監督を使用して適応できるようにします。さまざまなエージェントベンチマークでの実証評価により、TT-SIはすべてのベンチマークで平均+5.48%の絶対精度向上をもたらし、他の標準的な学習手法を上回りながら、トレーニングサンプルを68倍少なく使用することが示されました。我々の研究結果は、TT-SIの可能性を強調し、テスト時における自己改善アルゴリズムが、自己進化に向けたより有能なエージェントを構築するための新しいパラダイムとしての潜在力を示しています。
English
One paradigm of language model (LM) fine-tuning relies on creating large
training datasets, under the assumption that high quantity and diversity will
enable models to generalize to novel tasks after post-training. In practice,
gathering large sets of data is inefficient, and training on them is
prohibitively expensive; worse, there is no guarantee that the resulting model
will handle complex scenarios or generalize better. Moreover, existing
techniques rarely assess whether a training sample provides novel information
or is redundant with the knowledge already acquired by the model, resulting in
unnecessary costs. In this work, we explore a new test-time self-improvement
method to create more effective and generalizable agentic LMs on-the-fly. The
proposed algorithm can be summarized in three steps: (i) first it identifies
the samples that model struggles with (self-awareness), (ii) then generates
similar examples from detected uncertain samples (self-data augmentation), and
(iii) uses these newly generated samples at test-time fine-tuning
(self-improvement). We study two variants of this approach: Test-Time
Self-Improvement (TT-SI), where the same model generates additional training
examples from its own uncertain cases and then learns from them, and contrast
this approach with Test-Time Distillation (TT-D), where a stronger model
generates similar examples for uncertain cases, enabling student to adapt using
distilled supervision. Empirical evaluations across different agent benchmarks
demonstrate that TT-SI improves the performance with +5.48% absolute accuracy
gain on average across all benchmarks and surpasses other standard learning
methods, yet using 68x less training samples. Our findings highlight the
promise of TT-SI, demonstrating the potential of self-improvement algorithms at
test-time as a new paradigm for building more capable agents toward
self-evolution.