RATIONALYST: Voorafgaand trainingsproces-toezicht ter verbetering van redenering

Samenvatting

De redeneerstappen gegenereerd door LLM's kunnen onvolledig zijn, omdat ze logische sprongen nabootsen die veel voorkomen in alledaagse communicatie in hun voorafgaande trainingdata: onderliggende rationales worden vaak impliciet (niet expliciet) gelaten. Om dit probleem aan te pakken, introduceren we RATIONALYST, een model voor procesbegeleiding van redeneren op basis van voorafgaande training op een uitgebreide verzameling rationale annotaties die zijn geëxtraheerd uit ongelabelde data. We extraheren 79k rationales uit een web-scale ongelabelde dataset (de Pile) en een combinatie van redeneerdatasets met minimaal menselijk ingrijpen. Deze web-scale voorafgaande training voor redeneren stelt RATIONALYST in staat om consistent te generaliseren over diverse redeneertaken, waaronder wiskundig, gezond verstand, wetenschappelijk en logisch redeneren. Na fijnafstemming van LLaMa-3-8B, verbetert RATIONALYST de nauwkeurigheid van redeneren gemiddeld met 3,9% op 7 representatieve redeneer-benchmarks. Het toont ook superieure prestaties in vergelijking met aanzienlijk grotere verifiers zoals GPT-4 en modellen van vergelijkbare grootte die zijn fijnafgestemd op overeenkomstige trainingssets.

English

The reasoning steps generated by LLMs might be incomplete, as they mimic logical leaps common in everyday communication found in their pre-training data: underlying rationales are frequently left implicit (unstated). To address this challenge, we introduce RATIONALYST, a model for process-supervision of reasoning based on pre-training on a vast collection of rationale annotations extracted from unlabeled data. We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention. This web-scale pre-training for reasoning allows RATIONALYST to consistently generalize across diverse reasoning tasks, including mathematical, commonsense, scientific, and logical reasoning. Fine-tuned from LLaMa-3-8B, RATIONALYST improves the accuracy of reasoning by an average of 3.9% on 7 representative reasoning benchmarks. It also demonstrates superior performance compared to significantly larger verifiers like GPT-4 and similarly sized models fine-tuned on matching training sets.

RATIONALYST: Voorafgaand trainingsproces-toezicht ter verbetering van redenering

RATIONALYST: Pre-training Process-Supervision for Improving Reasoning

Samenvatting

Support