Zelfverbeterende LLM-agenten tijdens testtijd
Self-Improving LLM Agents at Test-Time
October 9, 2025
Auteurs: Emre Can Acikgoz, Cheng Qian, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
Samenvatting
Een paradigma voor het finetunen van taalmodelen (LM) is gebaseerd op het creëren van grote trainingsdatasets, onder de aanname dat hoge kwantiteit en diversiteit modellen in staat zullen stellen om te generaliseren naar nieuwe taken na de training. In de praktijk is het verzamelen van grote datasets inefficiënt, en het trainen ervan is buitensporig duur; erger nog, er is geen garantie dat het resulterende model complexe scenario’s aankan of beter generaliseert. Bovendien evalueren bestaande technieken zelden of een trainingsvoorbeeld nieuwe informatie biedt of redundant is met de kennis die het model al heeft verworven, wat leidt tot onnodige kosten. In dit werk onderzoeken we een nieuwe methode voor zelfverbetering tijdens de testfase om effectievere en beter generaliseerbare agentische LM’s on-the-fly te creëren. Het voorgestelde algoritme kan worden samengevat in drie stappen: (i) eerst identificeert het de voorbeelden waar het model moeite mee heeft (zelfbewustzijn), (ii) genereert vervolgens vergelijkbare voorbeelden vanuit de gedetecteerde onzekere samples (zelfdata-augmentatie), en (iii) gebruikt deze nieuw gegenereerde voorbeelden tijdens het finetunen in de testfase (zelfverbetering). We bestuderen twee varianten van deze aanpak: Test-Time Self-Improvement (TT-SI), waarbij hetzelfde model aanvullende trainingsvoorbeelden genereert vanuit zijn eigen onzekere gevallen en daar vervolgens van leert, en vergelijken deze aanpak met Test-Time Distillation (TT-D), waarbij een sterker model vergelijkbare voorbeelden genereert voor onzekere gevallen, waardoor de student zich kan aanpassen met behulp van gedistilleerde supervisie. Empirische evaluaties over verschillende agentbenchmarks tonen aan dat TT-SI de prestaties verbetert met een gemiddelde absolute nauwkeurigheidstoename van +5,48% over alle benchmarks en andere standaard leermethoden overtreft, terwijl het 68x minder trainingsvoorbeelden gebruikt. Onze bevindingen benadrukken de belofte van TT-SI en demonstreren het potentieel van zelfverbeteringsalgoritmen tijdens de testfase als een nieuw paradigma voor het bouwen van capabelere agenten richting zelfevolutie.
English
One paradigm of language model (LM) fine-tuning relies on creating large
training datasets, under the assumption that high quantity and diversity will
enable models to generalize to novel tasks after post-training. In practice,
gathering large sets of data is inefficient, and training on them is
prohibitively expensive; worse, there is no guarantee that the resulting model
will handle complex scenarios or generalize better. Moreover, existing
techniques rarely assess whether a training sample provides novel information
or is redundant with the knowledge already acquired by the model, resulting in
unnecessary costs. In this work, we explore a new test-time self-improvement
method to create more effective and generalizable agentic LMs on-the-fly. The
proposed algorithm can be summarized in three steps: (i) first it identifies
the samples that model struggles with (self-awareness), (ii) then generates
similar examples from detected uncertain samples (self-data augmentation), and
(iii) uses these newly generated samples at test-time fine-tuning
(self-improvement). We study two variants of this approach: Test-Time
Self-Improvement (TT-SI), where the same model generates additional training
examples from its own uncertain cases and then learns from them, and contrast
this approach with Test-Time Distillation (TT-D), where a stronger model
generates similar examples for uncertain cases, enabling student to adapt using
distilled supervision. Empirical evaluations across different agent benchmarks
demonstrate that TT-SI improves the performance with +5.48% absolute accuracy
gain on average across all benchmarks and surpasses other standard learning
methods, yet using 68x less training samples. Our findings highlight the
promise of TT-SI, demonstrating the potential of self-improvement algorithms at
test-time as a new paradigm for building more capable agents toward
self-evolution.