ChatPaper.aiChatPaper

Genius: Ein generalisierbarer und rein unüberwachter Selbsttrainingsrahmen für fortgeschrittenes logisches Denken

Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning

April 11, 2025
Autoren: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu
cs.AI

Zusammenfassung

Die Weiterentwicklung der Denkfähigkeiten von LLMs (Large Language Models) hat großes Interesse geweckt. Aktuelle Nachschulungstechniken stützen sich jedoch stark auf überwachte Signale, wie Ergebnisüberwachung oder zusätzliche Belohnungsmodelle, die mit Problemen der Skalierbarkeit und hohen Anmerkungskosten konfrontiert sind. Dies motiviert uns, die Denkfähigkeiten von LLMs ohne externe Überwachung zu verbessern. Wir stellen ein generalisierbares und rein unüberwachtes Selbstschulungsframework namens Genius vor. Ohne externe Hilfsmittel muss Genius die optimale Antwortsequenz schrittweise ermitteln und den LLM optimieren. Um die potenziellen Schritte zu erkunden und die optimalen auszunutzen, führt Genius eine schrittweise Vorausschau-Neustichprobenstrategie ein, um die Schritte zu beproben und den Schrittwert durch die Simulation zukünftiger Ergebnisse zu schätzen. Weiterhin erkennen wir, dass die unüberwachte Einstellung unweigerlich intrinsisches Rauschen und Unsicherheit induziert. Um eine robuste Optimierung zu gewährleisten, schlagen wir eine vorteilskalibrierte Optimierungsverlustfunktion (ACO) vor, um Schätzungsinkonsistenzen zu mildern. Durch die Kombination dieser Techniken bietet Genius einen fortgeschrittenen ersten Schritt zur Selbstverbesserung der Denkfähigkeiten von LLMs mit allgemeinen Anfragen und ohne Überwachung, was die Skalierungsgesetze des Denkens angesichts der großen Verfügbarkeit allgemeiner Anfragen revolutioniert. Der Code wird unter https://github.com/xufangzhi/Genius veröffentlicht.
English
Advancing LLM reasoning skills has captivated wide interest. However, current post-training techniques rely heavily on supervisory signals, such as outcome supervision or auxiliary reward models, which face the problem of scalability and high annotation costs. This motivates us to enhance LLM reasoning without the need for external supervision. We introduce a generalizable and purely unsupervised self-training framework, named Genius. Without external auxiliary, Genius requires to seek the optimal response sequence in a stepwise manner and optimize the LLM. To explore the potential steps and exploit the optimal ones, Genius introduces a stepwise foresight re-sampling strategy to sample and estimate the step value by simulating future outcomes. Further, we recognize that the unsupervised setting inevitably induces the intrinsic noise and uncertainty. To provide a robust optimization, we propose an advantage-calibrated optimization (ACO) loss function to mitigate estimation inconsistencies. Combining these techniques together, Genius provides an advanced initial step towards self-improve LLM reasoning with general queries and without supervision, revolutionizing reasoning scaling laws given the vast availability of general queries. The code will be released at https://github.com/xufangzhi/Genius.

Summary

AI-Generated Summary

PDF542April 16, 2025