ChatPaper.aiChatPaper

GLoRe: 대규모 언어 모델의 추론 능력 향상을 위한 전역 및 지역적 개선의 시기, 위치, 방법

GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

February 13, 2024
저자: Alex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Railneau
cs.AI

초록

최신 언어 모델은 수학, 과학 또는 코딩 과제에서 인상적인 추론 개선 능력을 보여줄 수 있다. 그러나 최근 연구에 따르면, 외부 피드백 없이는 최고의 모델들도 언제, 어디서 개선해야 하는지 식별하는 데 어려움을 겪는다. 최종 답변의 정확성을 예측하여 언제 개선해야 하는지를 나타내는 결과 기반 보상 모델(Outcome-based Reward Models, ORMs)은 이러한 결정을 위한 편리한 해결책을 제공한다. 중간 단계의 정확성을 예측하여 어디서 개선해야 하는지를 나타내는 과정 기반 보상 모델(Process Based Reward Models, PRMs)도 사용될 수 있지만, 이는 광범위한 인간 주석이 필요하여 학습 비용이 많이 든다. 본 논문에서는 합성 데이터만을 사용하여 최적 정책 또는 \( V^{\star} \)의 기대 미래 보상을 근사하도록 학습된 단계적 ORMs(Stepwise ORMs, SORMs)를 제안한다. 구체적으로, SORMs는 현재 정책을 여러 번 샘플링할 때(ORMs의 경우와 달리 한 번만 샘플링하는 것이 아니라) 최종 답변의 정확성을 예측하도록 학습된다. 우리의 실험 결과, SORMs는 ORMs에 비해 잘못된 추론 단계를 더 정확하게 감지할 수 있으며, 이를 통해 개선 작업 시 하류 정확도를 향상시킬 수 있음을 보여준다. 그런 다음, 질문과 초안 해결책만을 입력으로 받아 수정된 해결책을 예측하는 전역 개선 모델과, 첫 번째 추론 오류의 위치를 나타내는 비평도 입력으로 받는 지역 개선 모델을 학습시킨다. 두 모델의 학습 데이터는 SORM을 학습하는 데 사용된 데이터를 재사용하여 합성적으로 생성한다. ORM을 재순위 지정자로 사용하여 전역 및 지역 개선을 결합하는 것이 각각을 개별적으로 사용하는 것보다, 그리고 세 가지 샘플 기준선 중 최고의 성능을 크게 능가함을 발견했다. 이 전략을 통해 GSM8K에서 이미 RL로 미세 조정된 LLaMA-2 13B 모델의 정확도를 탐욕적으로 샘플링할 때 53\%에서 65\%로 향상시킬 수 있었다.
English
State-of-the-art language models can exhibit impressive reasoning refinement capabilities on math, science or coding tasks. However, recent work demonstrates that even the best models struggle to identify when and where to refine without access to external feedback. Outcome-based Reward Models (ORMs), trained to predict correctness of the final answer indicating when to refine, offer one convenient solution for deciding when to refine. Process Based Reward Models (PRMs), trained to predict correctness of intermediate steps, can then be used to indicate where to refine. But they are expensive to train, requiring extensive human annotations. In this paper, we propose Stepwise ORMs (SORMs) which are trained, only on synthetic data, to approximate the expected future reward of the optimal policy or V^{star}. More specifically, SORMs are trained to predict the correctness of the final answer when sampling the current policy many times (rather than only once as in the case of ORMs). Our experiments show that SORMs can more accurately detect incorrect reasoning steps compared to ORMs, thus improving downstream accuracy when doing refinements. We then train global refinement models, which take only the question and a draft solution as input and predict a corrected solution, and local refinement models which also take as input a critique indicating the location of the first reasoning error. We generate training data for both models synthetically by reusing data used to train the SORM. We find combining global and local refinements, using the ORM as a reranker, significantly outperforms either one individually, as well as a best of three sample baseline. With this strategy we can improve the accuracy of a LLaMA-2 13B model (already fine-tuned with RL) on GSM8K from 53\% to 65\% when greedily sampled.
PDF121December 15, 2024