ChatPaper.aiChatPaper

Een stap terug om vooruit te springen: Zelf-terugspoelen voor het verbeteren van de redenering van Taalmodellen.

Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models

February 6, 2025
Auteurs: Xiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li
cs.AI

Samenvatting

De integratie van langzaamdenkende mechanismen in grote taalmodellen (LLM's) biedt een veelbelovende manier om Level 2 AGI Reasoners te bereiken, zoals geïllustreerd door systemen zoals OpenAI's o1. Er blijven echter verschillende significante uitdagingen bestaan, waaronder inefficiënt overdenken en een te grote afhankelijkheid van hulpbeloningsmodellen. We wijzen erop dat deze beperkingen voortkomen uit het onvermogen van LLM's om het zoekproces te internaliseren, een essentieel onderdeel van effectief redeneren. Een cruciale stap om dit probleem aan te pakken, is het mogelijk maken dat LLM's autonoom bepalen wanneer en waar ze moeten terugkeren, een fundamentele operatie in traditionele zoekalgoritmen. Met dit doel stellen we een zelf-terugspoelmechanisme voor dat LLM's in staat stelt om tijdens zowel training als inferentie terug te spoelen. Dit mechanisme verbetert niet alleen het redeneervermogen, maar ook de efficiëntie door langzaamdenkende processen om te zetten in snel denken door zelfverbetering. Empirische evaluaties tonen aan dat ons voorstel aanzienlijk de redeneervaardigheden van LLM's verbetert, met een prestatiewinst van meer dan 40 procent in vergelijking met de optimale-pad-supervised fine-tuning methode. Wij geloven dat deze studie een nieuw en veelbelovend pad introduceert voor het ontwikkelen van geavanceerdere en robuustere Reasoners.
English
The integration of slow-thinking mechanisms into large language models (LLMs) offers a promising way toward achieving Level 2 AGI Reasoners, as exemplified by systems like OpenAI's o1. However, several significant challenges remain, including inefficient overthinking and an overreliance on auxiliary reward models. We point out that these limitations stem from LLMs' inability to internalize the search process, a key component of effective reasoning. A critical step toward addressing this issue is enabling LLMs to autonomously determine when and where to backtrack, a fundamental operation in traditional search algorithms. To this end, we propose a self-backtracking mechanism that equips LLMs with the ability to backtrack during both training and inference. This mechanism not only enhances reasoning ability but also efficiency by transforming slow-thinking processes into fast-thinking through self-improvement. Empirical evaluations demonstrate that our proposal significantly enhances the reasoning capabilities of LLMs, achieving a performance gain of over 40 percent compared to the optimal-path supervised fine-tuning method. We believe this study introduces a novel and promising pathway for developing more advanced and robust Reasoners.

Summary

AI-Generated Summary

PDF242February 10, 2025