Agentes de LLM de Automejora durante el Tiempo de Prueba
Self-Improving LLM Agents at Test-Time
October 9, 2025
Autores: Emre Can Acikgoz, Cheng Qian, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur
cs.AI
Resumen
Un paradigma de ajuste fino de modelos de lenguaje (LM) se basa en la creación de grandes conjuntos de datos de entrenamiento, bajo el supuesto de que una alta cantidad y diversidad permitirá que los modelos generalicen a tareas novedosas después del entrenamiento. En la práctica, recopilar grandes conjuntos de datos es ineficiente, y entrenar con ellos es prohibitivamente costoso; peor aún, no hay garantía de que el modelo resultante maneje escenarios complejos o generalice mejor. Además, las técnicas existentes rara vez evalúan si una muestra de entrenamiento proporciona información novedosa o es redundante con el conocimiento ya adquirido por el modelo, lo que resulta en costos innecesarios. En este trabajo, exploramos un nuevo método de auto-mejora en tiempo de prueba para crear LMs agentivos más efectivos y generalizables sobre la marcha. El algoritmo propuesto puede resumirse en tres pasos: (i) primero identifica las muestras con las que el modelo tiene dificultades (autoconciencia), (ii) luego genera ejemplos similares a partir de las muestras detectadas como inciertas (auto-aumento de datos), y (iii) utiliza estas muestras recién generadas en el ajuste fino en tiempo de prueba (auto-mejora). Estudiamos dos variantes de este enfoque: Auto-Mejora en Tiempo de Prueba (TT-SI), donde el mismo modelo genera ejemplos adicionales de entrenamiento a partir de sus propios casos inciertos y luego aprende de ellos, y contrastamos este enfoque con la Destilación en Tiempo de Prueba (TT-D), donde un modelo más fuerte genera ejemplos similares para casos inciertos, permitiendo que el estudiante se adapte utilizando supervisión destilada. Las evaluaciones empíricas en diferentes benchmarks de agentes demuestran que TT-SI mejora el rendimiento con una ganancia absoluta de precisión de +5.48% en promedio en todos los benchmarks y supera a otros métodos de aprendizaje estándar, utilizando 68 veces menos muestras de entrenamiento. Nuestros hallazgos resaltan la promesa de TT-SI, demostrando el potencial de los algoritmos de auto-mejora en tiempo de prueba como un nuevo paradigma para construir agentes más capaces hacia la auto-evolución.
English
One paradigm of language model (LM) fine-tuning relies on creating large
training datasets, under the assumption that high quantity and diversity will
enable models to generalize to novel tasks after post-training. In practice,
gathering large sets of data is inefficient, and training on them is
prohibitively expensive; worse, there is no guarantee that the resulting model
will handle complex scenarios or generalize better. Moreover, existing
techniques rarely assess whether a training sample provides novel information
or is redundant with the knowledge already acquired by the model, resulting in
unnecessary costs. In this work, we explore a new test-time self-improvement
method to create more effective and generalizable agentic LMs on-the-fly. The
proposed algorithm can be summarized in three steps: (i) first it identifies
the samples that model struggles with (self-awareness), (ii) then generates
similar examples from detected uncertain samples (self-data augmentation), and
(iii) uses these newly generated samples at test-time fine-tuning
(self-improvement). We study two variants of this approach: Test-Time
Self-Improvement (TT-SI), where the same model generates additional training
examples from its own uncertain cases and then learns from them, and contrast
this approach with Test-Time Distillation (TT-D), where a stronger model
generates similar examples for uncertain cases, enabling student to adapt using
distilled supervision. Empirical evaluations across different agent benchmarks
demonstrate that TT-SI improves the performance with +5.48% absolute accuracy
gain on average across all benchmarks and surpasses other standard learning
methods, yet using 68x less training samples. Our findings highlight the
promise of TT-SI, demonstrating the potential of self-improvement algorithms at
test-time as a new paradigm for building more capable agents toward
self-evolution.