START: Selbstlernender Vernunftanwender mit Werkzeugen
START: Self-taught Reasoner with Tools
March 6, 2025
Autoren: Chengpeng Li, Mingfeng Xue, Zhenru Zhang, Jiaxi Yang, Beichen Zhang, Xiang Wang, Bowen Yu, Binyuan Hui, Junyang Lin, Dayiheng Liu
cs.AI
Zusammenfassung
Große Reasoning-Modelle (LRMs) wie OpenAI-o1 und DeepSeek-R1 haben bemerkenswerte Fähigkeiten bei komplexen Reasoning-Aufgaben durch die Nutzung langer Chain-of-Thought (CoT)-Sequenzen gezeigt. Allerdings leiden diese Modelle oft unter Halluzinationen und Ineffizienzen, da sie sich ausschließlich auf interne Reasoning-Prozesse verlassen. In diesem Artikel stellen wir START (Self-Taught Reasoner with Tools) vor, ein neuartiges, tool-integriertes CoT-Reasoning-LLM, das die Reasoning-Fähigkeiten durch die Nutzung externer Tools erheblich verbessert. Durch Code-Ausführung ist START in der Lage, komplexe Berechnungen durchzuführen, Selbstüberprüfungen vorzunehmen, verschiedene Methoden zu erkunden und selbst zu debuggen, wodurch die Grenzen von LRMs überwunden werden. Die Kerninnovation von START liegt in seinem Selbstlern-Framework, das zwei Schlüsseltechniken umfasst: 1) Hint-infer: Wir zeigen, dass das Einfügen künstlich gestalteter Hinweise (z. B. „Warte, vielleicht ist die Verwendung von Python hier eine gute Idee.“) während des Inferenzprozesses eines LRMs dessen Fähigkeit effektiv stimuliert, externe Tools zu nutzen, ohne dass Demonstrationsdaten benötigt werden. Hint-infer kann auch als einfache und effektive Methode zur sequenziellen Testzeit-Skalierung dienen; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT kombiniert Hint-infer und RFT, indem es die Reasoning-Pfade mit Tool-Aufrufen, die von einem LRM via Hint-infer generiert wurden, bewertet, filtert und modifiziert, gefolgt von einem Fine-Tuning des LRMs. Durch dieses Framework haben wir das QwQ-32B-Modell zu START feinabgestimmt. Auf PhD-Level Science-QA (GPQA), Wettbewerbs-Level-Mathe-Benchmarks (AMC23, AIME24, AIME25) und dem Wettbewerbs-Level-Code-Benchmark (LiveCodeBench) erreicht START Genauigkeitsraten von 63,6 %, 95,0 %, 66,7 %, 47,1 % bzw. 47,3 %. Es übertrifft das Basismodell QwQ-32B deutlich und erreicht eine Leistung, die mit dem state-of-the-art Open-Weight-Modell R1-Distill-Qwen-32B und dem proprietären Modell o1-Preview vergleichbar ist.
English
Large reasoning models (LRMs) like OpenAI-o1 and DeepSeek-R1 have
demonstrated remarkable capabilities in complex reasoning tasks through the
utilization of long Chain-of-thought (CoT). However, these models often suffer
from hallucinations and inefficiencies due to their reliance solely on internal
reasoning processes. In this paper, we introduce START (Self-Taught Reasoner
with Tools), a novel tool-integrated long CoT reasoning LLM that significantly
enhances reasoning capabilities by leveraging external tools. Through code
execution, START is capable of performing complex computations, self-checking,
exploring diverse methods, and self-debugging, thereby addressing the
limitations of LRMs. The core innovation of START lies in its self-learning
framework, which comprises two key techniques: 1) Hint-infer: We demonstrate
that inserting artificially designed hints (e.g., ``Wait, maybe using Python
here is a good idea.'') during the inference process of a LRM effectively
stimulates its ability to utilize external tools without the need for any
demonstration data. Hint-infer can also serve as a simple and effective
sequential test-time scaling method; 2) Hint Rejection Sampling Fine-Tuning
(Hint-RFT): Hint-RFT combines Hint-infer and RFT by scoring, filtering, and
modifying the reasoning trajectories with tool invocation generated by a LRM
via Hint-infer, followed by fine-tuning the LRM. Through this framework, we
have fine-tuned the QwQ-32B model to achieve START. On PhD-level science QA
(GPQA), competition-level math benchmarks (AMC23, AIME24, AIME25), and the
competition-level code benchmark (LiveCodeBench), START achieves accuracy rates
of 63.6%, 95.0%, 66.7%, 47.1%, and 47.3%, respectively. It significantly
outperforms the base QwQ-32B and achieves performance comparable to the
state-of-the-art open-weight model R1-Distill-Qwen-32B and the proprietary
model o1-Preview.Summary
AI-Generated Summary