Genius: Un Marco Generalizable y Puramente No Supervisado de Autoentrenamiento para Razonamiento Avanzado
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
April 11, 2025
Autores: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu
cs.AI
Resumen
El avance de las habilidades de razonamiento de los LLM ha capturado un amplio interés. Sin embargo, las técnicas actuales de posentrenamiento dependen en gran medida de señales de supervisión, como la supervisión de resultados o modelos de recompensa auxiliares, que enfrentan problemas de escalabilidad y altos costos de anotación. Esto nos motiva a mejorar el razonamiento de los LLM sin la necesidad de supervisión externa. Introducimos un marco de autoentrenamiento generalizable y puramente no supervisado, denominado Genius. Sin asistencia externa, Genius requiere buscar la secuencia de respuestas óptima de manera gradual y optimizar el LLM. Para explorar los pasos potenciales y aprovechar los óptimos, Genius introduce una estrategia de remuestreo con visión gradual que simula resultados futuros para muestrear y estimar el valor de cada paso. Además, reconocemos que el entorno no supervisado induce inevitablemente ruido intrínseco e incertidumbre. Para proporcionar una optimización robusta, proponemos una función de pérdida de optimización calibrada por ventaja (ACO) para mitigar inconsistencias en la estimación. Combinando estas técnicas, Genius ofrece un paso inicial avanzado hacia la automejora del razonamiento de los LLM con consultas generales y sin supervisión, revolucionando las leyes de escalado del razonamiento dada la amplia disponibilidad de consultas generales. El código se publicará en https://github.com/xufangzhi/Genius.
English
Advancing LLM reasoning skills has captivated wide interest. However, current
post-training techniques rely heavily on supervisory signals, such as outcome
supervision or auxiliary reward models, which face the problem of scalability
and high annotation costs. This motivates us to enhance LLM reasoning without
the need for external supervision. We introduce a generalizable and purely
unsupervised self-training framework, named Genius. Without external auxiliary,
Genius requires to seek the optimal response sequence in a stepwise manner and
optimize the LLM. To explore the potential steps and exploit the optimal ones,
Genius introduces a stepwise foresight re-sampling strategy to sample and
estimate the step value by simulating future outcomes. Further, we recognize
that the unsupervised setting inevitably induces the intrinsic noise and
uncertainty. To provide a robust optimization, we propose an
advantage-calibrated optimization (ACO) loss function to mitigate estimation
inconsistencies. Combining these techniques together, Genius provides an
advanced initial step towards self-improve LLM reasoning with general queries
and without supervision, revolutionizing reasoning scaling laws given the vast
availability of general queries. The code will be released at
https://github.com/xufangzhi/Genius.Summary
AI-Generated Summary