Genius : Un cadre généralisable et entièrement non supervisé d'auto-apprentissage pour le raisonnement avancé
Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
April 11, 2025
Auteurs: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu
cs.AI
Résumé
L'amélioration des capacités de raisonnement des LLM (Large Language Models) a suscité un intérêt considérable. Cependant, les techniques actuelles de post-formation reposent fortement sur des signaux de supervision, tels que la supervision des résultats ou des modèles de récompense auxiliaires, qui se heurtent à des problèmes d'évolutivité et de coûts d'annotation élevés. Cela nous motive à améliorer le raisonnement des LLM sans recourir à une supervision externe. Nous introduisons un cadre d'auto-formation généralisable et entièrement non supervisé, nommé Genius. Sans assistance externe, Genius nécessite de rechercher la séquence de réponses optimale de manière progressive et d'optimiser le LLM. Pour explorer les étapes potentielles et exploiter les plus optimales, Genius introduit une stratégie de rééchantillonnage prospectif par étapes pour échantillonner et estimer la valeur de chaque étape en simulant les résultats futurs. De plus, nous reconnaissons que le cadre non supervisé induit inévitablement du bruit intrinsèque et de l'incertitude. Pour fournir une optimisation robuste, nous proposons une fonction de perte d'optimisation calibrée par avantage (ACO) pour atténuer les incohérences d'estimation. En combinant ces techniques, Genius offre une première étape avancée vers l'auto-amélioration du raisonnement des LLM avec des requêtes générales et sans supervision, révolutionnant les lois d'échelle du raisonnement compte tenu de la vaste disponibilité de requêtes générales. Le code sera publié à l'adresse https://github.com/xufangzhi/Genius.
English
Advancing LLM reasoning skills has captivated wide interest. However, current
post-training techniques rely heavily on supervisory signals, such as outcome
supervision or auxiliary reward models, which face the problem of scalability
and high annotation costs. This motivates us to enhance LLM reasoning without
the need for external supervision. We introduce a generalizable and purely
unsupervised self-training framework, named Genius. Without external auxiliary,
Genius requires to seek the optimal response sequence in a stepwise manner and
optimize the LLM. To explore the potential steps and exploit the optimal ones,
Genius introduces a stepwise foresight re-sampling strategy to sample and
estimate the step value by simulating future outcomes. Further, we recognize
that the unsupervised setting inevitably induces the intrinsic noise and
uncertainty. To provide a robust optimization, we propose an
advantage-calibrated optimization (ACO) loss function to mitigate estimation
inconsistencies. Combining these techniques together, Genius provides an
advanced initial step towards self-improve LLM reasoning with general queries
and without supervision, revolutionizing reasoning scaling laws given the vast
availability of general queries. The code will be released at
https://github.com/xufangzhi/Genius.Summary
AI-Generated Summary