Genius: Um Framework Generalizável e Puramente Não Supervisionado de Autoaprendizagem para Raciocínio Avançado
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
April 11, 2025
Autores: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu
cs.AI
Resumo
O avanço das habilidades de raciocínio de LLMs tem despertado grande interesse. No entanto, as técnicas atuais de pós-treinamento dependem fortemente de sinais supervisionados, como supervisão de resultados ou modelos de recompensa auxiliares, que enfrentam problemas de escalabilidade e altos custos de anotação. Isso nos motiva a aprimorar o raciocínio de LLMs sem a necessidade de supervisão externa. Introduzimos um framework generalizável e puramente não supervisionado de auto-treinamento, denominado Genius. Sem auxílios externos, o Genius precisa buscar a sequência de respostas ótima de maneira gradual e otimizar o LLM. Para explorar os passos potenciais e aproveitar os mais adequados, o Genius introduz uma estratégia de reamostragem com previsão gradual para amostrar e estimar o valor de cada passo, simulando resultados futuros. Além disso, reconhecemos que o cenário não supervisionado inevitavelmente induz ruído e incerteza intrínsecos. Para fornecer uma otimização robusta, propomos uma função de perda de otimização calibrada por vantagem (ACO) para mitigar inconsistências na estimativa. Combinando essas técnicas, o Genius oferece um passo inicial avançado para a auto-melhoria do raciocínio de LLMs com consultas gerais e sem supervisão, revolucionando as leis de escalabilidade de raciocínio, dada a vasta disponibilidade de consultas gerais. O código será disponibilizado em https://github.com/xufangzhi/Genius.
English
Advancing LLM reasoning skills has captivated wide interest. However, current
post-training techniques rely heavily on supervisory signals, such as outcome
supervision or auxiliary reward models, which face the problem of scalability
and high annotation costs. This motivates us to enhance LLM reasoning without
the need for external supervision. We introduce a generalizable and purely
unsupervised self-training framework, named Genius. Without external auxiliary,
Genius requires to seek the optimal response sequence in a stepwise manner and
optimize the LLM. To explore the potential steps and exploit the optimal ones,
Genius introduces a stepwise foresight re-sampling strategy to sample and
estimate the step value by simulating future outcomes. Further, we recognize
that the unsupervised setting inevitably induces the intrinsic noise and
uncertainty. To provide a robust optimization, we propose an
advantage-calibrated optimization (ACO) loss function to mitigate estimation
inconsistencies. Combining these techniques together, Genius provides an
advanced initial step towards self-improve LLM reasoning with general queries
and without supervision, revolutionizing reasoning scaling laws given the vast
availability of general queries. The code will be released at
https://github.com/xufangzhi/Genius.Summary
AI-Generated Summary