테스트 시간에 자기 개선하는 LLM 에이전트
Self-Improving LLM Agents at Test-Time
October 9, 2025
저자: Emre Can Acikgoz, Cheng Qian, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
초록
언어 모델(LM) 미세 조정의 한 가지 패러다임은 대규모 훈련 데이터셋을 생성하는 데 의존하며, 높은 양과 다양성이 사후 훈련 후 모델이 새로운 작업에 일반화할 수 있게 해줄 것이라는 가정 하에 진행됩니다. 실제로 대규모 데이터셋을 수집하는 것은 비효율적이며, 이를 훈련에 사용하는 것은 엄청난 비용이 듭니다. 더 나쁜 점은, 결과적으로 얻은 모델이 복잡한 시나리오를 처리하거나 더 나은 일반화를 보장할 수 없다는 것입니다. 또한, 기존 기술들은 훈련 샘플이 새로운 정보를 제공하는지, 아니면 모델이 이미 습득한 지식과 중복되는지를 거의 평가하지 않아 불필요한 비용을 초래합니다. 본 연구에서는 테스트 시간에 더 효과적이고 일반화 가능한 에이전트 LM을 즉석에서 생성하기 위한 새로운 테스트 시간 자기 개선 방법을 탐구합니다. 제안된 알고리즘은 세 단계로 요약할 수 있습니다: (i) 먼저 모델이 어려움을 겪는 샘플을 식별(자기 인식), (ii) 그런 다음 불확실한 샘플에서 유사한 예제를 생성(자기 데이터 증강), (iii) 이렇게 새로 생성된 샘플을 테스트 시간 미세 조정에 사용(자기 개선). 우리는 이 접근법의 두 가지 변형을 연구합니다: 테스트 시간 자기 개선(TT-SI)은 동일한 모델이 자신의 불확실한 사례에서 추가 훈련 예제를 생성한 후 이를 학습하는 방식이며, 테스트 시간 증류(TT-D)는 더 강력한 모델이 불확실한 사례에 대해 유사한 예제를 생성하여 학생 모델이 증류된 감독을 통해 적응할 수 있게 하는 방식입니다. 다양한 에이전트 벤치마크에 대한 실험적 평가 결과, TT-SI는 모든 벤치마크에서 평균 +5.48%의 절대 정확도 향상을 보였으며, 다른 표준 학습 방법을 능가하면서도 68배 적은 훈련 샘플을 사용했습니다. 우리의 연구 결과는 TT-SI의 가능성을 강조하며, 테스트 시간 자기 개선 알고리즘이 자기 진화를 향한 더 능력 있는 에이전트를 구축하기 위한 새로운 패러다임으로서의 잠재력을 보여줍니다.
English
One paradigm of language model (LM) fine-tuning relies on creating large
training datasets, under the assumption that high quantity and diversity will
enable models to generalize to novel tasks after post-training. In practice,
gathering large sets of data is inefficient, and training on them is
prohibitively expensive; worse, there is no guarantee that the resulting model
will handle complex scenarios or generalize better. Moreover, existing
techniques rarely assess whether a training sample provides novel information
or is redundant with the knowledge already acquired by the model, resulting in
unnecessary costs. In this work, we explore a new test-time self-improvement
method to create more effective and generalizable agentic LMs on-the-fly. The
proposed algorithm can be summarized in three steps: (i) first it identifies
the samples that model struggles with (self-awareness), (ii) then generates
similar examples from detected uncertain samples (self-data augmentation), and
(iii) uses these newly generated samples at test-time fine-tuning
(self-improvement). We study two variants of this approach: Test-Time
Self-Improvement (TT-SI), where the same model generates additional training
examples from its own uncertain cases and then learns from them, and contrast
this approach with Test-Time Distillation (TT-D), where a stronger model
generates similar examples for uncertain cases, enabling student to adapt using
distilled supervision. Empirical evaluations across different agent benchmarks
demonstrate that TT-SI improves the performance with +5.48% absolute accuracy
gain on average across all benchmarks and surpasses other standard learning
methods, yet using 68x less training samples. Our findings highlight the
promise of TT-SI, demonstrating the potential of self-improvement algorithms at
test-time as a new paradigm for building more capable agents toward
self-evolution.