RATIONALYST: Vorabtrainingsprozess-Supervision zur Verbesserung des Schlussfolgerns
RATIONALYST: Pre-training Process-Supervision for Improving Reasoning
October 1, 2024
Autoren: Dongwei Jiang, Guoxuan Wang, Yining Lu, Andrew Wang, Jingyu Zhang, Chuyu Liu, Benjamin Van Durme, Daniel Khashabi
cs.AI
Zusammenfassung
Die durch LLMs generierten Schlussfolgerungsschritte könnten unvollständig sein, da sie logische Sprünge nachahmen, die in der alltäglichen Kommunikation häufig vorkommen und in ihren vorab trainierten Daten zu finden sind: zugrunde liegende Begründungen werden häufig implizit (nicht explizit) gelassen. Um diese Herausforderung anzugehen, stellen wir RATIONALYST vor, ein Modell für die Prozessaufsicht des Schlussfolgerns, das auf einem umfangreichen Satz von Begründungsannotationen basiert, die aus unbeschrifteten Daten extrahiert wurden. Wir extrahieren 79.000 Begründungen aus einem webbasierten unbeschrifteten Datensatz (dem Pile) und einer Kombination von Schlussfolgerungsdatensätzen mit minimalem menschlichem Eingriff. Dieses webbasierte Vorabtraining für das Schlussfolgern ermöglicht es RATIONALYST, konsistent über verschiedene Schlussfolgerungsaufgaben hinweg zu verallgemeinern, einschließlich mathematischer, allgemeiner, wissenschaftlicher und logischer Schlussfolgerungen. Feinabgestimmt von LLaMa-3-8B verbessert RATIONALYST die Genauigkeit des Schlussfolgerns im Durchschnitt um 3,9% bei 7 repräsentativen Schlussfolgerungsprüfungen. Es zeigt auch eine überlegene Leistung im Vergleich zu deutlich größeren Verifizierern wie GPT-4 und ähnlich großen Modellen, die auf passenden Trainingssätzen feinabgestimmt sind.
English
The reasoning steps generated by LLMs might be incomplete, as they mimic
logical leaps common in everyday communication found in their pre-training
data: underlying rationales are frequently left implicit (unstated). To address
this challenge, we introduce RATIONALYST, a model for process-supervision of
reasoning based on pre-training on a vast collection of rationale annotations
extracted from unlabeled data. We extract 79k rationales from web-scale
unlabelled dataset (the Pile) and a combination of reasoning datasets with
minimal human intervention. This web-scale pre-training for reasoning allows
RATIONALYST to consistently generalize across diverse reasoning tasks,
including mathematical, commonsense, scientific, and logical reasoning.
Fine-tuned from LLaMa-3-8B, RATIONALYST improves the accuracy of reasoning by
an average of 3.9% on 7 representative reasoning benchmarks. It also
demonstrates superior performance compared to significantly larger verifiers
like GPT-4 and similarly sized models fine-tuned on matching training sets.