Una puntada a tiempo ahorra nueve: Auto-refinamiento proactivo para modelos de lenguaje
A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models
August 18, 2025
Autores: Jinyi Han, Xinyi Wang, Haiquan Zhao, Tingyun li, Zishang Jiang, Sihang Jiang, Jiaqing Liang, Xin Lin, Weikang Zhou, Zeye Sun, Fei Yu, Yanghua Xiao
cs.AI
Resumen
Los recientes avances en auto-refinamiento han demostrado un potencial significativo para mejorar las salidas de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) mediante refinamiento iterativo. Sin embargo, la mayoría de los métodos de auto-refinamiento existentes dependen de un proceso reactivo con un número fijo de iteraciones, lo que dificulta determinar el momento óptimo y el contenido del refinamiento basado en el contexto de generación en evolución. Inspirados por la forma en que los humanos refinan dinámicamente sus pensamientos durante la ejecución, proponemos Auto-Refinamiento Proactivo (PASR, por sus siglas en inglés), un método novedoso que permite a los LLMs refinar sus salidas durante el proceso de generación. A diferencia de los métodos que regeneran respuestas completas, PASR decide de manera proactiva si, cuándo y cómo refinar, basándose en el estado interno del modelo y el contexto en evolución. Realizamos experimentos exhaustivos en un conjunto diverso de 10 tareas para evaluar la efectividad de PASR. Los resultados experimentales muestran que PASR mejora significativamente el rendimiento en la resolución de problemas. En particular, en Qwen3-8B, PASR reduce el consumo promedio de tokens en un 41.6 por ciento en comparación con la generación estándar, al mismo tiempo que logra una mejora del 8.2 por ciento en precisión. Nuestro código y todas las líneas base utilizadas en el artículo están disponibles en GitHub.
English
Recent advances in self-refinement have demonstrated significant potential
for improving the outputs of large language models (LLMs) through iterative
refinement. However, most existing self-refinement methods rely on a reactive
process with a fixed number of iterations, making it difficult to determine the
optimal timing and content of refinement based on the evolving generation
context. Inspired by the way humans dynamically refine their thoughts during
execution, we propose ProActive Self-Refinement (PASR), a novel method that
enables LLMs to refine their outputs during the generation process. Unlike
methods that regenerate entire responses, PASR proactively decides whether,
when, and how to refine based on the model's internal state and evolving
context. We conduct extensive experiments on a diverse set of 10 tasks to
evaluate the effectiveness of PASR. Experimental results show that PASR
significantly enhances problem-solving performance. In particular, on Qwen3-8B,
PASR reduces average token consumption by 41.6 percent compared to standard
generation, while also achieving an 8.2 percent improvement in accuracy. Our
code and all baselines used in the paper are available in the GitHub.