ChatPaper.aiChatPaper

言語モデルの物理学:パート2.2、小学校レベルの算数問題から間違いを学ぶ方法

Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems

August 29, 2024
著者: Tian Ye, Zicheng Xu, Yuanzhi Li, Zeyuan Allen-Zhu
cs.AI

要旨

言語モデルは推論タスクを解決する際に顕著な性能を示しているが、最も強力なモデルでさえ時々推論ミスを犯す。最近では、特に事前学習済み言語モデルを用いて複数回のプロンプティングを通じて「自己修正」を行うことで、推論精度を向上させることを目的とした研究が活発に行われている。本論文では、この研究の流れに沿いつつ、「誤り修正」データを事前学習段階に直接組み込むことの有用性を理解することに焦点を当てる。このデータは、誤った解決ステップとその直後の修正から構成されている。合成数学データセットを使用して、このタイプの事前学習データが、同じ量の誤りのないデータで事前学習する場合と比較して、言語モデルがより高い推論精度を直接達成する(つまり、複数回のプロンプティングなしに単純な自己回帰を通じて)のに役立つことを示す。また、多くの詳細についても掘り下げる。例えば、(1) このアプローチがビームサーチとどのように異なるか、(2) このようなデータをどのように準備できるか、(3) 誤ったトークンにマスキングが必要かどうか、(4) 必要な誤りの量、(5) このようなデータをファインチューニング段階に延期できるかどうか、などである。
English
Language models have demonstrated remarkable performance in solving reasoning tasks; however, even the strongest models still occasionally make reasoning mistakes. Recently, there has been active research aimed at improving reasoning accuracy, particularly by using pretrained language models to "self-correct" their mistakes via multi-round prompting. In this paper, we follow this line of work but focus on understanding the usefulness of incorporating "error-correction" data directly into the pretraining stage. This data consists of erroneous solution steps immediately followed by their corrections. Using a synthetic math dataset, we show promising results: this type of pretrain data can help language models achieve higher reasoning accuracy directly (i.e., through simple auto-regression, without multi-round prompting) compared to pretraining on the same amount of error-free data. We also delve into many details, such as (1) how this approach differs from beam search, (2) how such data can be prepared, (3) whether masking is needed on the erroneous tokens, (4) the amount of error required, (5) whether such data can be deferred to the fine-tuning stage, and many others.
PDF272November 14, 2024