Agentes de LLM com Autoaprimoramento em Tempo de Teste
Self-Improving LLM Agents at Test-Time
October 9, 2025
Autores: Emre Can Acikgoz, Cheng Qian, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
Resumo
Um paradigma de ajuste fino de modelos de linguagem (LM) baseia-se na criação de grandes conjuntos de dados de treinamento, sob a suposição de que alta quantidade e diversidade permitirão que os modelos generalizem para novas tarefas após o treinamento. Na prática, coletar grandes conjuntos de dados é ineficiente, e treinar neles é proibitivamente caro; pior ainda, não há garantia de que o modelo resultante lidará com cenários complexos ou generalizará melhor. Além disso, as técnicas existentes raramente avaliam se uma amostra de treinamento fornece informações novas ou é redundante com o conhecimento já adquirido pelo modelo, resultando em custos desnecessários. Neste trabalho, exploramos um novo método de autoaperfeiçoamento em tempo de teste para criar LMs agentivos mais eficazes e generalizáveis dinamicamente. O algoritmo proposto pode ser resumido em três etapas: (i) primeiro, identifica as amostras com as quais o modelo tem dificuldade (autoconsciência), (ii) então gera exemplos semelhantes a partir das amostras incertas detectadas (auto-aumento de dados), e (iii) usa essas novas amostras geradas no ajuste fino em tempo de teste (autoaperfeiçoamento). Estudamos duas variantes dessa abordagem: Autoaperfeiçoamento em Tempo de Teste (TT-SI), onde o mesmo modelo gera exemplos de treinamento adicionais a partir de seus próprios casos incertos e depois aprende com eles, e contrastamos essa abordagem com Destilação em Tempo de Teste (TT-D), onde um modelo mais forte gera exemplos semelhantes para casos incertos, permitindo que o aluno se adapte usando supervisão destilada. Avaliações empíricas em diferentes benchmarks de agentes demonstram que o TT-SI melhora o desempenho com um ganho absoluto de precisão de +5,48% em média em todos os benchmarks e supera outros métodos de aprendizado padrão, ainda usando 68x menos amostras de treinamento. Nossos resultados destacam a promessa do TT-SI, demonstrando o potencial de algoritmos de autoaperfeiçoamento em tempo de teste como um novo paradigma para construir agentes mais capazes em direção à auto-evolução.
English
One paradigm of language model (LM) fine-tuning relies on creating large
training datasets, under the assumption that high quantity and diversity will
enable models to generalize to novel tasks after post-training. In practice,
gathering large sets of data is inefficient, and training on them is
prohibitively expensive; worse, there is no guarantee that the resulting model
will handle complex scenarios or generalize better. Moreover, existing
techniques rarely assess whether a training sample provides novel information
or is redundant with the knowledge already acquired by the model, resulting in
unnecessary costs. In this work, we explore a new test-time self-improvement
method to create more effective and generalizable agentic LMs on-the-fly. The
proposed algorithm can be summarized in three steps: (i) first it identifies
the samples that model struggles with (self-awareness), (ii) then generates
similar examples from detected uncertain samples (self-data augmentation), and
(iii) uses these newly generated samples at test-time fine-tuning
(self-improvement). We study two variants of this approach: Test-Time
Self-Improvement (TT-SI), where the same model generates additional training
examples from its own uncertain cases and then learns from them, and contrast
this approach with Test-Time Distillation (TT-D), where a stronger model
generates similar examples for uncertain cases, enabling student to adapt using
distilled supervision. Empirical evaluations across different agent benchmarks
demonstrate that TT-SI improves the performance with +5.48% absolute accuracy
gain on average across all benchmarks and surpasses other standard learning
methods, yet using 68x less training samples. Our findings highlight the
promise of TT-SI, demonstrating the potential of self-improvement algorithms at
test-time as a new paradigm for building more capable agents toward
self-evolution.