Una puntada a tiempo ahorra nueve: Auto-refinamiento proactivo para modelos de lenguaje

Resumen

Los recientes avances en auto-refinamiento han demostrado un potencial significativo para mejorar las salidas de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) mediante refinamiento iterativo. Sin embargo, la mayoría de los métodos de auto-refinamiento existentes dependen de un proceso reactivo con un número fijo de iteraciones, lo que dificulta determinar el momento óptimo y el contenido del refinamiento basado en el contexto de generación en evolución. Inspirados por la forma en que los humanos refinan dinámicamente sus pensamientos durante la ejecución, proponemos Auto-Refinamiento Proactivo (PASR, por sus siglas en inglés), un método novedoso que permite a los LLMs refinar sus salidas durante el proceso de generación. A diferencia de los métodos que regeneran respuestas completas, PASR decide de manera proactiva si, cuándo y cómo refinar, basándose en el estado interno del modelo y el contexto en evolución. Realizamos experimentos exhaustivos en un conjunto diverso de 10 tareas para evaluar la efectividad de PASR. Los resultados experimentales muestran que PASR mejora significativamente el rendimiento en la resolución de problemas. En particular, en Qwen3-8B, PASR reduce el consumo promedio de tokens en un 41.6 por ciento en comparación con la generación estándar, al mismo tiempo que logra una mejora del 8.2 por ciento en precisión. Nuestro código y todas las líneas base utilizadas en el artículo están disponibles en GitHub.

English

Recent advances in self-refinement have demonstrated significant potential for improving the outputs of large language models (LLMs) through iterative refinement. However, most existing self-refinement methods rely on a reactive process with a fixed number of iterations, making it difficult to determine the optimal timing and content of refinement based on the evolving generation context. Inspired by the way humans dynamically refine their thoughts during execution, we propose ProActive Self-Refinement (PASR), a novel method that enables LLMs to refine their outputs during the generation process. Unlike methods that regenerate entire responses, PASR proactively decides whether, when, and how to refine based on the model's internal state and evolving context. We conduct extensive experiments on a diverse set of 10 tasks to evaluate the effectiveness of PASR. Experimental results show that PASR significantly enhances problem-solving performance. In particular, on Qwen3-8B, PASR reduces average token consumption by 41.6 percent compared to standard generation, while also achieving an 8.2 percent improvement in accuracy. Our code and all baselines used in the paper are available in the GitHub.

Una puntada a tiempo ahorra nueve: Auto-refinamiento proactivo para modelos de lenguaje

A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models

Resumen

Support