ChatPaper.aiChatPaper

Einen Schritt zurück, um vorwärts zu springen: Selbst-Rückverfolgung zur Steigerung der Argumentation von Sprachmodellen.

Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models

February 6, 2025
Autoren: Xiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li
cs.AI

Zusammenfassung

Die Integration von Mechanismen des langsamen Denkens in große Sprachmodelle (LLMs) bietet einen vielversprechenden Weg zur Erreichung von AGI-Reasonern der Stufe 2, wie es beispielsweise bei Systemen wie OpenAI's o1 der Fall ist. Es bleiben jedoch mehrere bedeutende Herausforderungen bestehen, darunter ineffizientes Überdenken und eine übermäßige Abhängigkeit von Hilfsbelohnungsmodellen. Wir weisen darauf hin, dass diese Einschränkungen auf der Unfähigkeit von LLMs beruhen, den Suchprozess zu internalisieren, einem Schlüsselelement effektiven Denkens. Ein entscheidender Schritt zur Bewältigung dieses Problems besteht darin, LLMs zu ermöglichen, autonom zu bestimmen, wann und wo sie einen Rückzug einlegen sollen, eine grundlegende Operation in traditionellen Suchalgorithmen. Zu diesem Zweck schlagen wir einen Selbstrückzugmechanismus vor, der LLMs die Fähigkeit verleiht, sowohl während des Trainings als auch bei der Inferenz zurückzugehen. Dieser Mechanismus verbessert nicht nur die Denkfähigkeit, sondern auch die Effizienz, indem er langsame Denkprozesse durch Selbstverbesserung in schnellere Denkprozesse umwandelt. Empirische Bewertungen zeigen, dass unser Vorschlag die Denkfähigkeiten von LLMs signifikant verbessert und eine Leistungssteigerung von über 40 Prozent im Vergleich zur Methode des überwachten Feintunings des optimalen Pfads erreicht. Wir sind der Meinung, dass diese Studie einen neuartigen und vielversprechenden Weg für die Entwicklung fortschrittlicherer und robusterer Reasoner aufzeigt.
English
The integration of slow-thinking mechanisms into large language models (LLMs) offers a promising way toward achieving Level 2 AGI Reasoners, as exemplified by systems like OpenAI's o1. However, several significant challenges remain, including inefficient overthinking and an overreliance on auxiliary reward models. We point out that these limitations stem from LLMs' inability to internalize the search process, a key component of effective reasoning. A critical step toward addressing this issue is enabling LLMs to autonomously determine when and where to backtrack, a fundamental operation in traditional search algorithms. To this end, we propose a self-backtracking mechanism that equips LLMs with the ability to backtrack during both training and inference. This mechanism not only enhances reasoning ability but also efficiency by transforming slow-thinking processes into fast-thinking through self-improvement. Empirical evaluations demonstrate that our proposal significantly enhances the reasoning capabilities of LLMs, achieving a performance gain of over 40 percent compared to the optimal-path supervised fine-tuning method. We believe this study introduces a novel and promising pathway for developing more advanced and robust Reasoners.

Summary

AI-Generated Summary

PDF242February 10, 2025