Selbstverbessernde LLM-Agenten zur Testzeit

papers.abstract

Ein Paradigma der Feinabstimmung von Sprachmodellen (Language Models, LMs) basiert auf der Erstellung großer Trainingsdatensätze, in der Annahme, dass hohe Quantität und Vielfalt es den Modellen ermöglichen, sich nach dem Training auf neue Aufgaben zu verallgemeinern. In der Praxis ist das Sammeln großer Datensätze jedoch ineffizient, und das Training darauf ist extrem kostspielig; schlimmer noch, es gibt keine Garantie, dass das resultierende Modell komplexe Szenarien bewältigen oder sich besser verallgemeinern wird. Darüber hinaus bewerten bestehende Techniken selten, ob ein Trainingsbeispiel neue Informationen liefert oder redundant zum bereits erworbenen Wissen des Modells ist, was zu unnötigen Kosten führt. In dieser Arbeit untersuchen wir eine neue Methode zur Selbstverbesserung zur Laufzeit, um effektivere und besser verallgemeinerbare agentenbasierte LMs on-the-fly zu erstellen. Der vorgeschlagene Algorithmus lässt sich in drei Schritte zusammenfassen: (i) Zunächst identifiziert er die Beispiele, mit denen das Modell Schwierigkeiten hat (Selbstwahrnehmung), (ii) generiert dann ähnliche Beispiele aus den erkannten unsicheren Fällen (Selbst-Daten-Augmentierung) und (iii) verwendet diese neu generierten Beispiele zur Feinabstimmung zur Laufzeit (Selbstverbesserung). Wir untersuchen zwei Varianten dieses Ansatzes: Test-Time Self-Improvement (TT-SI), bei dem dasselbe Modell zusätzliche Trainingsbeispiele aus seinen eigenen unsicheren Fällen generiert und dann daraus lernt, und vergleichen diesen Ansatz mit Test-Time Distillation (TT-D), bei dem ein stärkeres Modell ähnliche Beispiele für unsichere Fälle generiert, wodurch der Schüler mithilfe destillierter Supervision adaptieren kann. Empirische Auswertungen über verschiedene Agenten-Benchmarks zeigen, dass TT-SI die Leistung mit einem durchschnittlichen absoluten Genauigkeitsgewinn von +5,48 % über alle Benchmarks hinweg verbessert und andere Standard-Lernmethoden übertrifft, dabei jedoch 68x weniger Trainingsbeispiele verwendet. Unsere Ergebnisse unterstreichen das Potenzial von TT-SI und demonstrieren die Möglichkeiten von Selbstverbesserungsalgorithmen zur Laufzeit als neues Paradigma für die Entwicklung leistungsfähigerer Agenten hin zur Selbstevolution.

English

One paradigm of language model (LM) fine-tuning relies on creating large training datasets, under the assumption that high quantity and diversity will enable models to generalize to novel tasks after post-training. In practice, gathering large sets of data is inefficient, and training on them is prohibitively expensive; worse, there is no guarantee that the resulting model will handle complex scenarios or generalize better. Moreover, existing techniques rarely assess whether a training sample provides novel information or is redundant with the knowledge already acquired by the model, resulting in unnecessary costs. In this work, we explore a new test-time self-improvement method to create more effective and generalizable agentic LMs on-the-fly. The proposed algorithm can be summarized in three steps: (i) first it identifies the samples that model struggles with (self-awareness), (ii) then generates similar examples from detected uncertain samples (self-data augmentation), and (iii) uses these newly generated samples at test-time fine-tuning (self-improvement). We study two variants of this approach: Test-Time Self-Improvement (TT-SI), where the same model generates additional training examples from its own uncertain cases and then learns from them, and contrast this approach with Test-Time Distillation (TT-D), where a stronger model generates similar examples for uncertain cases, enabling student to adapt using distilled supervision. Empirical evaluations across different agent benchmarks demonstrate that TT-SI improves the performance with +5.48% absolute accuracy gain on average across all benchmarks and surpasses other standard learning methods, yet using 68x less training samples. Our findings highlight the promise of TT-SI, demonstrating the potential of self-improvement algorithms at test-time as a new paradigm for building more capable agents toward self-evolution.

Selbstverbessernde LLM-Agenten zur Testzeit

Self-Improving LLM Agents at Test-Time

papers.abstract

Support