Selbstverbessernde LLM-Agenten zur Testzeit
Self-Improving LLM Agents at Test-Time
October 9, 2025
papers.authors: Emre Can Acikgoz, Cheng Qian, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
papers.abstract
Ein Paradigma der Feinabstimmung von Sprachmodellen (Language Models, LMs) basiert auf der Erstellung großer Trainingsdatensätze, in der Annahme, dass hohe Quantität und Vielfalt es den Modellen ermöglichen, sich nach dem Training auf neue Aufgaben zu verallgemeinern. In der Praxis ist das Sammeln großer Datensätze jedoch ineffizient, und das Training darauf ist extrem kostspielig; schlimmer noch, es gibt keine Garantie, dass das resultierende Modell komplexe Szenarien bewältigen oder sich besser verallgemeinern wird. Darüber hinaus bewerten bestehende Techniken selten, ob ein Trainingsbeispiel neue Informationen liefert oder redundant zum bereits erworbenen Wissen des Modells ist, was zu unnötigen Kosten führt. In dieser Arbeit untersuchen wir eine neue Methode zur Selbstverbesserung zur Laufzeit, um effektivere und besser verallgemeinerbare agentenbasierte LMs on-the-fly zu erstellen. Der vorgeschlagene Algorithmus lässt sich in drei Schritte zusammenfassen: (i) Zunächst identifiziert er die Beispiele, mit denen das Modell Schwierigkeiten hat (Selbstwahrnehmung), (ii) generiert dann ähnliche Beispiele aus den erkannten unsicheren Fällen (Selbst-Daten-Augmentierung) und (iii) verwendet diese neu generierten Beispiele zur Feinabstimmung zur Laufzeit (Selbstverbesserung). Wir untersuchen zwei Varianten dieses Ansatzes: Test-Time Self-Improvement (TT-SI), bei dem dasselbe Modell zusätzliche Trainingsbeispiele aus seinen eigenen unsicheren Fällen generiert und dann daraus lernt, und vergleichen diesen Ansatz mit Test-Time Distillation (TT-D), bei dem ein stärkeres Modell ähnliche Beispiele für unsichere Fälle generiert, wodurch der Schüler mithilfe destillierter Supervision adaptieren kann. Empirische Auswertungen über verschiedene Agenten-Benchmarks zeigen, dass TT-SI die Leistung mit einem durchschnittlichen absoluten Genauigkeitsgewinn von +5,48 % über alle Benchmarks hinweg verbessert und andere Standard-Lernmethoden übertrifft, dabei jedoch 68x weniger Trainingsbeispiele verwendet. Unsere Ergebnisse unterstreichen das Potenzial von TT-SI und demonstrieren die Möglichkeiten von Selbstverbesserungsalgorithmen zur Laufzeit als neues Paradigma für die Entwicklung leistungsfähigerer Agenten hin zur Selbstevolution.
English
One paradigm of language model (LM) fine-tuning relies on creating large
training datasets, under the assumption that high quantity and diversity will
enable models to generalize to novel tasks after post-training. In practice,
gathering large sets of data is inefficient, and training on them is
prohibitively expensive; worse, there is no guarantee that the resulting model
will handle complex scenarios or generalize better. Moreover, existing
techniques rarely assess whether a training sample provides novel information
or is redundant with the knowledge already acquired by the model, resulting in
unnecessary costs. In this work, we explore a new test-time self-improvement
method to create more effective and generalizable agentic LMs on-the-fly. The
proposed algorithm can be summarized in three steps: (i) first it identifies
the samples that model struggles with (self-awareness), (ii) then generates
similar examples from detected uncertain samples (self-data augmentation), and
(iii) uses these newly generated samples at test-time fine-tuning
(self-improvement). We study two variants of this approach: Test-Time
Self-Improvement (TT-SI), where the same model generates additional training
examples from its own uncertain cases and then learns from them, and contrast
this approach with Test-Time Distillation (TT-D), where a stronger model
generates similar examples for uncertain cases, enabling student to adapt using
distilled supervision. Empirical evaluations across different agent benchmarks
demonstrate that TT-SI improves the performance with +5.48% absolute accuracy
gain on average across all benchmarks and surpasses other standard learning
methods, yet using 68x less training samples. Our findings highlight the
promise of TT-SI, demonstrating the potential of self-improvement algorithms at
test-time as a new paradigm for building more capable agents toward
self-evolution.