RATIONALYST: Vorabtrainingsprozess-Supervision zur Verbesserung des Schlussfolgerns

papers.abstract

Die durch LLMs generierten Schlussfolgerungsschritte könnten unvollständig sein, da sie logische Sprünge nachahmen, die in der alltäglichen Kommunikation häufig vorkommen und in ihren vorab trainierten Daten zu finden sind: zugrunde liegende Begründungen werden häufig implizit (nicht explizit) gelassen. Um diese Herausforderung anzugehen, stellen wir RATIONALYST vor, ein Modell für die Prozessaufsicht des Schlussfolgerns, das auf einem umfangreichen Satz von Begründungsannotationen basiert, die aus unbeschrifteten Daten extrahiert wurden. Wir extrahieren 79.000 Begründungen aus einem webbasierten unbeschrifteten Datensatz (dem Pile) und einer Kombination von Schlussfolgerungsdatensätzen mit minimalem menschlichem Eingriff. Dieses webbasierte Vorabtraining für das Schlussfolgern ermöglicht es RATIONALYST, konsistent über verschiedene Schlussfolgerungsaufgaben hinweg zu verallgemeinern, einschließlich mathematischer, allgemeiner, wissenschaftlicher und logischer Schlussfolgerungen. Feinabgestimmt von LLaMa-3-8B verbessert RATIONALYST die Genauigkeit des Schlussfolgerns im Durchschnitt um 3,9% bei 7 repräsentativen Schlussfolgerungsprüfungen. Es zeigt auch eine überlegene Leistung im Vergleich zu deutlich größeren Verifizierern wie GPT-4 und ähnlich großen Modellen, die auf passenden Trainingssätzen feinabgestimmt sind.

English

The reasoning steps generated by LLMs might be incomplete, as they mimic logical leaps common in everyday communication found in their pre-training data: underlying rationales are frequently left implicit (unstated). To address this challenge, we introduce RATIONALYST, a model for process-supervision of reasoning based on pre-training on a vast collection of rationale annotations extracted from unlabeled data. We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention. This web-scale pre-training for reasoning allows RATIONALYST to consistently generalize across diverse reasoning tasks, including mathematical, commonsense, scientific, and logical reasoning. Fine-tuned from LLaMa-3-8B, RATIONALYST improves the accuracy of reasoning by an average of 3.9% on 7 representative reasoning benchmarks. It also demonstrates superior performance compared to significantly larger verifiers like GPT-4 and similarly sized models fine-tuned on matching training sets.

RATIONALYST: Vorabtrainingsprozess-Supervision zur Verbesserung des Schlussfolgerns

RATIONALYST: Pre-training Process-Supervision for Improving Reasoning

papers.abstract

Support