RACIONALISTA: Processo de Pré-treinamento com Supervisão para Melhorar o Raciocínio

Resumo

Os passos de raciocínio gerados pelos LLMs podem ser incompletos, pois imitam saltos lógicos comuns na comunicação do dia a dia encontrados em seus dados de pré-treinamento: as justificativas subjacentes frequentemente são deixadas implícitas (não declaradas). Para enfrentar esse desafio, apresentamos RATIONALYST, um modelo para supervisão de processos de raciocínio com base no pré-treinamento em uma vasta coleção de anotações de justificativas extraídas de dados não rotulados. Extraímos 79 mil justificativas de um conjunto de dados não rotulados em escala web (o Pile) e uma combinação de conjuntos de dados de raciocínio com intervenção humana mínima. Esse pré-treinamento em escala web para raciocínio permite que o RATIONALYST generalize consistentemente em diversas tarefas de raciocínio, incluindo raciocínio matemático, de senso comum, científico e lógico. Ajustado a partir do LLaMa-3-8B, o RATIONALYST melhora a precisão do raciocínio em média 3,9% em 7 benchmarks representativos de raciocínio. Ele também demonstra desempenho superior em comparação com verificadores significativamente maiores como o GPT-4 e modelos de tamanho semelhante ajustados em conjuntos de treinamento correspondentes.

English

The reasoning steps generated by LLMs might be incomplete, as they mimic logical leaps common in everyday communication found in their pre-training data: underlying rationales are frequently left implicit (unstated). To address this challenge, we introduce RATIONALYST, a model for process-supervision of reasoning based on pre-training on a vast collection of rationale annotations extracted from unlabeled data. We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention. This web-scale pre-training for reasoning allows RATIONALYST to consistently generalize across diverse reasoning tasks, including mathematical, commonsense, scientific, and logical reasoning. Fine-tuned from LLaMa-3-8B, RATIONALYST improves the accuracy of reasoning by an average of 3.9% on 7 representative reasoning benchmarks. It also demonstrates superior performance compared to significantly larger verifiers like GPT-4 and similarly sized models fine-tuned on matching training sets.

RACIONALISTA: Processo de Pré-treinamento com Supervisão para Melhorar o Raciocínio

RATIONALYST: Pre-training Process-Supervision for Improving Reasoning

Resumo

Support