언어 모델의 물리학: 2.2부, 초등학교 수학 문제에서 실수를 통해 배우는 방법
Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems
August 29, 2024
저자: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu
cs.AI
초록
언어 모델은 추론 과제 해결에서 놀라운 성능을 보여주고 있지만, 가장 강력한 모델들조차도 여전히 가끔씩 추론 오류를 범합니다. 최근에는 특히 사전 학습된 언어 모델을 사용하여 다중 라운드 프롬프팅을 통해 "자기 수정"을 함으로써 추론 정확도를 향상시키려는 연구가 활발히 진행되고 있습니다. 본 논문에서는 이러한 연구 흐름을 따르되, 사전 학습 단계에 "오류 수정" 데이터를 직접 통합하는 것의 유용성을 이해하는 데 초점을 맞춥니다. 이 데이터는 잘못된 해결 단계와 그에 이은 수정 사항으로 구성됩니다. 합성 수학 데이터셋을 사용하여, 우리는 이러한 유형의 사전 학습 데이터가 동일한 양의 오류 없는 데이터를 사전 학습하는 것에 비해 언어 모델이 더 높은 추론 정확도를 직접적으로(즉, 다중 라운드 프롬프팅 없이 단순한 자동 회귀를 통해) 달성하는 데 도움이 될 수 있다는 유망한 결과를 보여줍니다. 또한 우리는 (1) 이 접근법이 빔 서치와 어떻게 다른지, (2) 이러한 데이터를 어떻게 준비할 수 있는지, (3) 잘못된 토큰에 마스킹이 필요한지 여부, (4) 필요한 오류의 양, (5) 이러한 데이터를 미세 조정 단계로 미룰 수 있는지 여부 등과 같은 많은 세부 사항들을 깊이 있게 탐구합니다.
English
Language models have demonstrated remarkable performance in solving reasoning
tasks; however, even the strongest models still occasionally make reasoning
mistakes. Recently, there has been active research aimed at improving reasoning
accuracy, particularly by using pretrained language models to "self-correct"
their mistakes via multi-round prompting. In this paper, we follow this line of
work but focus on understanding the usefulness of incorporating
"error-correction" data directly into the pretraining stage. This data consists
of erroneous solution steps immediately followed by their corrections. Using a
synthetic math dataset, we show promising results: this type of pretrain data
can help language models achieve higher reasoning accuracy directly (i.e.,
through simple auto-regression, without multi-round prompting) compared to
pretraining on the same amount of error-free data. We also delve into many
details, such as (1) how this approach differs from beam search, (2) how such
data can be prepared, (3) whether masking is needed on the erroneous tokens,
(4) the amount of error required, (5) whether such data can be deferred to the
fine-tuning stage, and many others.