ChatPaper.aiChatPaper

Física dos Modelos de Linguagem: Parte 2.2, Como Aprender Com os Erros em Problemas de Matemática do Ensino Fundamental

Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

August 29, 2024
Autores: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu
cs.AI

Resumo

Os modelos de linguagem demonstraram desempenho notável na resolução de tarefas de raciocínio; no entanto, mesmo os modelos mais robustos ainda ocasionalmente cometem erros de raciocínio. Recentemente, tem havido pesquisas ativas visando melhorar a precisão do raciocínio, particularmente utilizando modelos de linguagem pré-treinados para "autocorrigir" seus erros por meio de prompts em múltiplas rodadas. Neste artigo, seguimos essa linha de pesquisa, mas com foco em compreender a utilidade de incorporar dados de "correção de erros" diretamente na fase de pré-treinamento. Esses dados consistem em etapas de solução errôneas seguidas imediatamente por suas correções. Utilizando um conjunto de dados matemáticos sintéticos, mostramos resultados promissores: esse tipo de dado de pré-treinamento pode ajudar os modelos de linguagem a alcançar maior precisão de raciocínio diretamente (ou seja, por meio de autoregressão simples, sem prompts em múltiplas rodadas) em comparação com o pré-treinamento na mesma quantidade de dados livres de erros. Também nos aprofundamos em muitos detalhes, como (1) como essa abordagem difere da busca em feixe, (2) como esses dados podem ser preparados, (3) se o mascaramento é necessário nos tokens errôneos, (4) a quantidade de erro necessária, (5) se esses dados podem ser adiados para a etapa de ajuste fino, entre outros.
English
Language models have demonstrated remarkable performance in solving reasoning tasks; however, even the strongest models still occasionally make reasoning mistakes. Recently, there has been active research aimed at improving reasoning accuracy, particularly by using pretrained language models to "self-correct" their mistakes via multi-round prompting. In this paper, we follow this line of work but focus on understanding the usefulness of incorporating "error-correction" data directly into the pretraining stage. This data consists of erroneous solution steps immediately followed by their corrections. Using a synthetic math dataset, we show promising results: this type of pretrain data can help language models achieve higher reasoning accuracy directly (i.e., through simple auto-regression, without multi-round prompting) compared to pretraining on the same amount of error-free data. We also delve into many details, such as (1) how this approach differs from beam search, (2) how such data can be prepared, (3) whether masking is needed on the erroneous tokens, (4) the amount of error required, (5) whether such data can be deferred to the fine-tuning stage, and many others.
PDF272November 14, 2024