Физика языковых моделей: Часть 2.2, Как учиться на ошибках в задачах по математике для начальной школы
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems
August 29, 2024
Авторы: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu
cs.AI
Аннотация
Языковые модели продемонстрировали впечатляющие результаты в решении задач, требующих рассуждений; однако даже самые мощные модели всё ещё иногда допускают ошибки в рассуждениях. В последнее время активно ведутся исследования, направленные на повышение точности рассуждений, в частности, с использованием предобученных языковых моделей для "самокоррекции" своих ошибок с помощью многоэтапных запросов. В данной работе мы следуем этому направлению, но сосредотачиваемся на изучении полезности включения данных для "исправления ошибок" непосредственно на этапе предобучения. Эти данные состоят из ошибочных шагов решения, за которыми сразу следуют их исправления. Используя синтетический математический набор данных, мы показываем обнадеживающие результаты: такой тип данных для предобучения может помочь языковым моделям достичь более высокой точности рассуждений напрямую (т.е. через простую авторегрессию, без многоэтапных запросов) по сравнению с предобучением на том же объеме данных без ошибок. Мы также углубляемся во множество деталей, таких как (1) чем этот подход отличается от поиска по лучу, (2) как можно подготовить такие данные, (3) требуется ли маскирование ошибочных токенов, (4) объем необходимых ошибок, (5) можно ли отложить использование таких данных до этапа тонкой настройки, и многие другие аспекты.
English
Language models have demonstrated remarkable performance in solving reasoning
tasks; however, even the strongest models still occasionally make reasoning
mistakes. Recently, there has been active research aimed at improving reasoning
accuracy, particularly by using pretrained language models to "self-correct"
their mistakes via multi-round prompting. In this paper, we follow this line of
work but focus on understanding the usefulness of incorporating
"error-correction" data directly into the pretraining stage. This data consists
of erroneous solution steps immediately followed by their corrections. Using a
synthetic math dataset, we show promising results: this type of pretrain data
can help language models achieve higher reasoning accuracy directly (i.e.,
through simple auto-regression, without multi-round prompting) compared to
pretraining on the same amount of error-free data. We also delve into many
details, such as (1) how this approach differs from beam search, (2) how such
data can be prepared, (3) whether masking is needed on the erroneous tokens,
(4) the amount of error required, (5) whether such data can be deferred to the
fine-tuning stage, and many others.