ChatPaper.aiChatPaper

RATIONALYST : Processus de pré-entraînement supervisé pour améliorer le raisonnement

RATIONALYST: Pre-training Process-Supervision for Improving Reasoning

October 1, 2024
Auteurs: Dongwei Jiang, Guoxuan Wang, Yining Lu, Andrew Wang, Jingyu Zhang, Chuyu Liu, Benjamin Van Durme, Daniel Khashabi
cs.AI

Résumé

Les étapes de raisonnement générées par les LLMs peuvent être incomplètes, car elles imitent des sauts logiques courants dans la communication quotidienne trouvés dans leurs données de pré-entraînement : les justifications sous-jacentes sont fréquemment laissées implicites (non déclarées). Pour relever ce défi, nous présentons RATIONALYST, un modèle de supervision de processus de raisonnement basé sur un pré-entraînement sur une vaste collection d'annotations de justifications extraites de données non étiquetées. Nous extrayons 79k justifications d'un ensemble de données non étiquetées à l'échelle du web (le Pile) et d'une combinaison d'ensembles de données de raisonnement avec une intervention humaine minimale. Ce pré-entraînement à grande échelle pour le raisonnement permet à RATIONALYST de généraliser de manière cohérente à travers diverses tâches de raisonnement, y compris le raisonnement mathématique, de bon sens, scientifique et logique. Affiné à partir de LLaMa-3-8B, RATIONALYST améliore la précision du raisonnement de 3,9 % en moyenne sur 7 bancs d'essai de raisonnement représentatifs. Il démontre également des performances supérieures par rapport à des vérificateurs significativement plus grands comme GPT-4 et des modèles de taille similaire affinés sur des ensembles d'entraînement correspondants.
English
The reasoning steps generated by LLMs might be incomplete, as they mimic logical leaps common in everyday communication found in their pre-training data: underlying rationales are frequently left implicit (unstated). To address this challenge, we introduce RATIONALYST, a model for process-supervision of reasoning based on pre-training on a vast collection of rationale annotations extracted from unlabeled data. We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention. This web-scale pre-training for reasoning allows RATIONALYST to consistently generalize across diverse reasoning tasks, including mathematical, commonsense, scientific, and logical reasoning. Fine-tuned from LLaMa-3-8B, RATIONALYST improves the accuracy of reasoning by an average of 3.9% on 7 representative reasoning benchmarks. It also demonstrates superior performance compared to significantly larger verifiers like GPT-4 and similarly sized models fine-tuned on matching training sets.

Summary

AI-Generated Summary

PDF373November 16, 2024