ChatPaper.aiChatPaper

Genius: Een Generaliseerbaar en Volledig Onbewaakt Zelf-Trainingsraamwerk Voor Geavanceerd Redeneren

Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

April 11, 2025
Auteurs: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu
cs.AI

Samenvatting

Het bevorderen van de redeneervaardigheden van LLM's heeft brede interesse gewekt. Huidige technieken na de training zijn echter sterk afhankelijk van toezichtsignalen, zoals uitkomstsupervisie of aanvullende beloningsmodellen, die te maken hebben met problemen van schaalbaarheid en hoge annotatiekosten. Dit motiveert ons om de redeneervaardigheden van LLM's te verbeteren zonder de noodzaak van externe supervisie. We introduceren een generaliseerbaar en volledig ongesuperviseerd zelf-trainingsframework, genaamd Genius. Zonder externe hulpmiddelen moet Genius de optimale responssequentie stap voor stap zoeken en de LLM optimaliseren. Om de mogelijke stappen te verkennen en de optimale te benutten, introduceert Genius een stapsgewijze vooruitziende her-bemonsteringsstrategie om stappen te bemonsteren en de stapwaarde te schatten door toekomstige uitkomsten te simuleren. Verder erkennen we dat de ongesuperviseerde setting onvermijdelijk intrinsieke ruis en onzekerheid met zich meebrengt. Om een robuuste optimalisatie te bieden, stellen we een voordeel-gekalibreerde optimalisatie (ACO) verliesfunctie voor om schattingsinconsistenties te verminderen. Door deze technieken te combineren, biedt Genius een geavanceerde eerste stap naar zelfverbetering van LLM-redenering met algemene queries en zonder supervisie, wat de schaalwetten van redenering revolutioneert gezien de enorme beschikbaarheid van algemene queries. De code zal worden vrijgegeven op https://github.com/xufangzhi/Genius.
English
Advancing LLM reasoning skills has captivated wide interest. However, current post-training techniques rely heavily on supervisory signals, such as outcome supervision or auxiliary reward models, which face the problem of scalability and high annotation costs. This motivates us to enhance LLM reasoning without the need for external supervision. We introduce a generalizable and purely unsupervised self-training framework, named Genius. Without external auxiliary, Genius requires to seek the optimal response sequence in a stepwise manner and optimize the LLM. To explore the potential steps and exploit the optimal ones, Genius introduces a stepwise foresight re-sampling strategy to sample and estimate the step value by simulating future outcomes. Further, we recognize that the unsupervised setting inevitably induces the intrinsic noise and uncertainty. To provide a robust optimization, we propose an advantage-calibrated optimization (ACO) loss function to mitigate estimation inconsistencies. Combining these techniques together, Genius provides an advanced initial step towards self-improve LLM reasoning with general queries and without supervision, revolutionizing reasoning scaling laws given the vast availability of general queries. The code will be released at https://github.com/xufangzhi/Genius.

Summary

AI-Generated Summary

PDF542April 16, 2025