ChatPaper.aiChatPaper

Física de los Modelos de Lenguaje: Parte 2.2, Cómo Aprender de los Errores en Problemas de Matemáticas de Primaria

Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

August 29, 2024
Autores: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu
cs.AI

Resumen

Los modelos de lenguaje han demostrado un rendimiento notable en la resolución de tareas de razonamiento; sin embargo, incluso los modelos más potentes aún cometen errores de razonamiento ocasionalmente. Recientemente, ha habido una investigación activa dirigida a mejorar la precisión del razonamiento, particularmente mediante el uso de modelos de lenguaje preentrenados para "autocorregir" sus errores a través de indicaciones de múltiples rondas. En este artículo, seguimos esta línea de trabajo pero nos enfocamos en comprender la utilidad de incorporar datos de "corrección de errores" directamente en la etapa de preentrenamiento. Estos datos consisten en pasos de solución erróneos seguidos inmediatamente por sus correcciones. Utilizando un conjunto de datos matemáticos sintéticos, mostramos resultados prometedores: este tipo de datos de preentrenamiento puede ayudar a los modelos de lenguaje a lograr una mayor precisión de razonamiento directamente (es decir, a través de una simple autoregresión, sin indicaciones de múltiples rondas) en comparación con el preentrenamiento con la misma cantidad de datos libres de errores. También profundizamos en muchos detalles, como (1) cómo este enfoque difiere de la búsqueda por haz, (2) cómo se pueden preparar dichos datos, (3) si es necesario enmascarar los tokens erróneos, (4) la cantidad de error requerida, (5) si estos datos pueden posponerse a la etapa de ajuste fino, y muchos otros.
English
Language models have demonstrated remarkable performance in solving reasoning tasks; however, even the strongest models still occasionally make reasoning mistakes. Recently, there has been active research aimed at improving reasoning accuracy, particularly by using pretrained language models to "self-correct" their mistakes via multi-round prompting. In this paper, we follow this line of work but focus on understanding the usefulness of incorporating "error-correction" data directly into the pretraining stage. This data consists of erroneous solution steps immediately followed by their corrections. Using a synthetic math dataset, we show promising results: this type of pretrain data can help language models achieve higher reasoning accuracy directly (i.e., through simple auto-regression, without multi-round prompting) compared to pretraining on the same amount of error-free data. We also delve into many details, such as (1) how this approach differs from beam search, (2) how such data can be prepared, (3) whether masking is needed on the erroneous tokens, (4) the amount of error required, (5) whether such data can be deferred to the fine-tuning stage, and many others.
PDF272November 14, 2024