ChatPaper.aiChatPaper

Zelfverbeterende LLM-agenten tijdens testtijd

Self-Improving LLM Agents at Test-Time

October 9, 2025
Auteurs: Emre Can Acikgoz, Cheng Qian, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur
cs.AI

Samenvatting

Een paradigma voor het finetunen van taalmodelen (LM) is gebaseerd op het creëren van grote trainingsdatasets, onder de aanname dat hoge kwantiteit en diversiteit modellen in staat zullen stellen om te generaliseren naar nieuwe taken na de training. In de praktijk is het verzamelen van grote datasets inefficiënt, en het trainen ervan is buitensporig duur; erger nog, er is geen garantie dat het resulterende model complexe scenario’s aankan of beter generaliseert. Bovendien evalueren bestaande technieken zelden of een trainingsvoorbeeld nieuwe informatie biedt of redundant is met de kennis die het model al heeft verworven, wat leidt tot onnodige kosten. In dit werk onderzoeken we een nieuwe methode voor zelfverbetering tijdens de testfase om effectievere en beter generaliseerbare agentische LM’s on-the-fly te creëren. Het voorgestelde algoritme kan worden samengevat in drie stappen: (i) eerst identificeert het de voorbeelden waar het model moeite mee heeft (zelfbewustzijn), (ii) genereert vervolgens vergelijkbare voorbeelden vanuit de gedetecteerde onzekere samples (zelfdata-augmentatie), en (iii) gebruikt deze nieuw gegenereerde voorbeelden tijdens het finetunen in de testfase (zelfverbetering). We bestuderen twee varianten van deze aanpak: Test-Time Self-Improvement (TT-SI), waarbij hetzelfde model aanvullende trainingsvoorbeelden genereert vanuit zijn eigen onzekere gevallen en daar vervolgens van leert, en vergelijken deze aanpak met Test-Time Distillation (TT-D), waarbij een sterker model vergelijkbare voorbeelden genereert voor onzekere gevallen, waardoor de student zich kan aanpassen met behulp van gedistilleerde supervisie. Empirische evaluaties over verschillende agentbenchmarks tonen aan dat TT-SI de prestaties verbetert met een gemiddelde absolute nauwkeurigheidstoename van +5,48% over alle benchmarks en andere standaard leermethoden overtreft, terwijl het 68x minder trainingsvoorbeelden gebruikt. Onze bevindingen benadrukken de belofte van TT-SI en demonstreren het potentieel van zelfverbeteringsalgoritmen tijdens de testfase als een nieuw paradigma voor het bouwen van capabelere agenten richting zelfevolutie.
English
One paradigm of language model (LM) fine-tuning relies on creating large training datasets, under the assumption that high quantity and diversity will enable models to generalize to novel tasks after post-training. In practice, gathering large sets of data is inefficient, and training on them is prohibitively expensive; worse, there is no guarantee that the resulting model will handle complex scenarios or generalize better. Moreover, existing techniques rarely assess whether a training sample provides novel information or is redundant with the knowledge already acquired by the model, resulting in unnecessary costs. In this work, we explore a new test-time self-improvement method to create more effective and generalizable agentic LMs on-the-fly. The proposed algorithm can be summarized in three steps: (i) first it identifies the samples that model struggles with (self-awareness), (ii) then generates similar examples from detected uncertain samples (self-data augmentation), and (iii) uses these newly generated samples at test-time fine-tuning (self-improvement). We study two variants of this approach: Test-Time Self-Improvement (TT-SI), where the same model generates additional training examples from its own uncertain cases and then learns from them, and contrast this approach with Test-Time Distillation (TT-D), where a stronger model generates similar examples for uncertain cases, enabling student to adapt using distilled supervision. Empirical evaluations across different agent benchmarks demonstrate that TT-SI improves the performance with +5.48% absolute accuracy gain on average across all benchmarks and surpasses other standard learning methods, yet using 68x less training samples. Our findings highlight the promise of TT-SI, demonstrating the potential of self-improvement algorithms at test-time as a new paradigm for building more capable agents toward self-evolution.
PDF92October 14, 2025