ChatPaper.aiChatPaper

Agents LLM auto-améliorés pendant la phase de test

Self-Improving LLM Agents at Test-Time

October 9, 2025
papers.authors: Emre Can Acikgoz, Cheng Qian, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur
cs.AI

papers.abstract

Un paradigme de fine-tuning des modèles de langage (LM) repose sur la création de grands ensembles de données d'entraînement, en supposant que la quantité et la diversité élevées permettront aux modèles de généraliser à de nouvelles tâches après l'entraînement. En pratique, la collecte de grands ensembles de données est inefficace, et leur entraînement est prohibitivement coûteux ; pire encore, il n'y a aucune garantie que le modèle résultant gérera des scénarios complexes ou généralisera mieux. De plus, les techniques existantes évaluent rarement si un échantillon d'entraînement fournit des informations nouvelles ou est redondant avec les connaissances déjà acquises par le modèle, entraînant des coûts inutiles. Dans ce travail, nous explorons une nouvelle méthode d'auto-amélioration au moment du test pour créer des LM agentiques plus efficaces et généralisables à la volée. L'algorithme proposé peut être résumé en trois étapes : (i) il identifie d'abord les échantillons avec lesquels le modèle a des difficultés (auto-conscience), (ii) génère ensuite des exemples similaires à partir des échantillons incertains détectés (auto-augmentation des données), et (iii) utilise ces nouveaux échantillons pour le fine-tuning au moment du test (auto-amélioration). Nous étudions deux variantes de cette approche : l'Auto-Amélioration au Moment du Test (TT-SI), où le même modèle génère des exemples d'entraînement supplémentaires à partir de ses propres cas incertains et apprend ensuite à partir d'eux, et contrastons cette approche avec la Distillation au Moment du Test (TT-D), où un modèle plus fort génère des exemples similaires pour les cas incertains, permettant à l'élève de s'adapter en utilisant une supervision distillée. Les évaluations empiriques sur différents benchmarks d'agents démontrent que TT-SI améliore les performances avec un gain de précision absolue de +5,48 % en moyenne sur tous les benchmarks et surpasse d'autres méthodes d'apprentissage standard, tout en utilisant 68 fois moins d'échantillons d'entraînement. Nos résultats mettent en lumière la promesse de TT-SI, démontrant le potentiel des algorithmes d'auto-amélioration au moment du test comme un nouveau paradigme pour construire des agents plus capables vers l'auto-évolution.
English
One paradigm of language model (LM) fine-tuning relies on creating large training datasets, under the assumption that high quantity and diversity will enable models to generalize to novel tasks after post-training. In practice, gathering large sets of data is inefficient, and training on them is prohibitively expensive; worse, there is no guarantee that the resulting model will handle complex scenarios or generalize better. Moreover, existing techniques rarely assess whether a training sample provides novel information or is redundant with the knowledge already acquired by the model, resulting in unnecessary costs. In this work, we explore a new test-time self-improvement method to create more effective and generalizable agentic LMs on-the-fly. The proposed algorithm can be summarized in three steps: (i) first it identifies the samples that model struggles with (self-awareness), (ii) then generates similar examples from detected uncertain samples (self-data augmentation), and (iii) uses these newly generated samples at test-time fine-tuning (self-improvement). We study two variants of this approach: Test-Time Self-Improvement (TT-SI), where the same model generates additional training examples from its own uncertain cases and then learns from them, and contrast this approach with Test-Time Distillation (TT-D), where a stronger model generates similar examples for uncertain cases, enabling student to adapt using distilled supervision. Empirical evaluations across different agent benchmarks demonstrate that TT-SI improves the performance with +5.48% absolute accuracy gain on average across all benchmarks and surpasses other standard learning methods, yet using 68x less training samples. Our findings highlight the promise of TT-SI, demonstrating the potential of self-improvement algorithms at test-time as a new paradigm for building more capable agents toward self-evolution.
PDF92October 14, 2025