RATIONALYST: Voorafgaand trainingsproces-toezicht ter verbetering van redenering
RATIONALYST: Pre-training Process-Supervision for Improving Reasoning
October 1, 2024
Auteurs: Dongwei Jiang, Guoxuan Wang, Yining Lu, Andrew Wang, Jingyu Zhang, Chuyu Liu, Benjamin Van Durme, Daniel Khashabi
cs.AI
Samenvatting
De redeneerstappen gegenereerd door LLM's kunnen onvolledig zijn, omdat ze logische sprongen nabootsen die veel voorkomen in alledaagse communicatie in hun voorafgaande trainingdata: onderliggende rationales worden vaak impliciet (niet expliciet) gelaten. Om dit probleem aan te pakken, introduceren we RATIONALYST, een model voor procesbegeleiding van redeneren op basis van voorafgaande training op een uitgebreide verzameling rationale annotaties die zijn geëxtraheerd uit ongelabelde data. We extraheren 79k rationales uit een web-scale ongelabelde dataset (de Pile) en een combinatie van redeneerdatasets met minimaal menselijk ingrijpen. Deze web-scale voorafgaande training voor redeneren stelt RATIONALYST in staat om consistent te generaliseren over diverse redeneertaken, waaronder wiskundig, gezond verstand, wetenschappelijk en logisch redeneren. Na fijnafstemming van LLaMa-3-8B, verbetert RATIONALYST de nauwkeurigheid van redeneren gemiddeld met 3,9% op 7 representatieve redeneer-benchmarks. Het toont ook superieure prestaties in vergelijking met aanzienlijk grotere verifiers zoals GPT-4 en modellen van vergelijkbare grootte die zijn fijnafgestemd op overeenkomstige trainingssets.
English
The reasoning steps generated by LLMs might be incomplete, as they mimic
logical leaps common in everyday communication found in their pre-training
data: underlying rationales are frequently left implicit (unstated). To address
this challenge, we introduce RATIONALYST, a model for process-supervision of
reasoning based on pre-training on a vast collection of rationale annotations
extracted from unlabeled data. We extract 79k rationales from web-scale
unlabelled dataset (the Pile) and a combination of reasoning datasets with
minimal human intervention. This web-scale pre-training for reasoning allows
RATIONALYST to consistently generalize across diverse reasoning tasks,
including mathematical, commonsense, scientific, and logical reasoning.
Fine-tuned from LLaMa-3-8B, RATIONALYST improves the accuracy of reasoning by
an average of 3.9% on 7 representative reasoning benchmarks. It also
demonstrates superior performance compared to significantly larger verifiers
like GPT-4 and similarly sized models fine-tuned on matching training sets.