As Lições do Desenvolvimento de Modelos de Recompensa de Processo na Raciocínio MatemáticoThe Lessons of Developing Process Reward Models in Mathematical
Reasoning
Os Modelos de Recompensa de Processo (PRMs) surgem como uma abordagem promissora para a supervisão de processos na raciocínio matemático de Modelos de Linguagem Grandes (LLMs), que têm como objetivo identificar e mitigar erros intermediários nos processos de raciocínio. No entanto, o desenvolvimento de PRMs eficazes enfrenta desafios significativos, especialmente em metodologias de anotação de dados e avaliação. Neste artigo, por meio de experimentos extensivos, demonstramos que a síntese de dados comumente utilizada baseada em estimativa Monte Carlo (MC) para PRMs geralmente resulta em desempenho e generalização inferiores em comparação com os métodos LLM-como-juiz e de anotação humana. A estimativa MC depende de modelos de conclusão para avaliar a correção do passo atual, levando a uma verificação imprecisa do passo. Além disso, identificamos possíveis viéses nas estratégias de avaliação convencionais Melhor-de-N (BoN) para PRMs: (1) Os modelos de política não confiáveis geram respostas com respostas corretas, mas processos falhos, levando a um desalinhamento entre os critérios de avaliação do BoN e os objetivos dos PRMs de verificação de processo. (2) A tolerância dos PRMs a tais respostas leva a pontuações infladas do BoN. (3) Os PRMs existentes têm uma proporção significativa de pontuações mínimas concentradas nos passos de resposta finais, revelando a mudança de uma avaliação baseada em processo para uma baseada em resultado nos PRMs Otimizados BoN. Para enfrentar esses desafios, desenvolvemos um mecanismo de filtragem de consenso que integra efetivamente a estimativa MC com LLM-como-juiz e defende um framework de avaliação mais abrangente que combina métricas de nível de resposta e de nível de passo. Com base nos mecanismos, melhoramos significativamente tanto o desempenho do modelo quanto a eficiência de dados na avaliação BoN e na tarefa de identificação de erros por etapas. Por fim, lançamos um novo PRM de ponta que supera as alternativas de código aberto existentes e fornece diretrizes práticas para futuras pesquisas na construção de modelos de supervisão de processo.