RACIONALISTA: Processo de Pré-treinamento com Supervisão para Melhorar o Raciocínio
RATIONALYST: Pre-training Process-Supervision for Improving Reasoning
October 1, 2024
Autores: Dongwei Jiang, Guoxuan Wang, Yining Lu, Andrew Wang, Jingyu Zhang, Chuyu Liu, Benjamin Van Durme, Daniel Khashabi
cs.AI
Resumo
Os passos de raciocínio gerados pelos LLMs podem ser incompletos, pois imitam saltos lógicos comuns na comunicação do dia a dia encontrados em seus dados de pré-treinamento: as justificativas subjacentes frequentemente são deixadas implícitas (não declaradas). Para enfrentar esse desafio, apresentamos RATIONALYST, um modelo para supervisão de processos de raciocínio com base no pré-treinamento em uma vasta coleção de anotações de justificativas extraídas de dados não rotulados. Extraímos 79 mil justificativas de um conjunto de dados não rotulados em escala web (o Pile) e uma combinação de conjuntos de dados de raciocínio com intervenção humana mínima. Esse pré-treinamento em escala web para raciocínio permite que o RATIONALYST generalize consistentemente em diversas tarefas de raciocínio, incluindo raciocínio matemático, de senso comum, científico e lógico. Ajustado a partir do LLaMa-3-8B, o RATIONALYST melhora a precisão do raciocínio em média 3,9% em 7 benchmarks representativos de raciocínio. Ele também demonstra desempenho superior em comparação com verificadores significativamente maiores como o GPT-4 e modelos de tamanho semelhante ajustados em conjuntos de treinamento correspondentes.
English
The reasoning steps generated by LLMs might be incomplete, as they mimic
logical leaps common in everyday communication found in their pre-training
data: underlying rationales are frequently left implicit (unstated). To address
this challenge, we introduce RATIONALYST, a model for process-supervision of
reasoning based on pre-training on a vast collection of rationale annotations
extracted from unlabeled data. We extract 79k rationales from web-scale
unlabelled dataset (the Pile) and a combination of reasoning datasets with
minimal human intervention. This web-scale pre-training for reasoning allows
RATIONALYST to consistently generalize across diverse reasoning tasks,
including mathematical, commonsense, scientific, and logical reasoning.
Fine-tuned from LLaMa-3-8B, RATIONALYST improves the accuracy of reasoning by
an average of 3.9% on 7 representative reasoning benchmarks. It also
demonstrates superior performance compared to significantly larger verifiers
like GPT-4 and similarly sized models fine-tuned on matching training sets.Summary
AI-Generated Summary