AdaptiveStep: Divisão Automática de Etapas de Raciocínio por meio da Confiança do Modelo

Resumo

As abordagens atuais para treinar Modelos de Recompensa de Processo (PRMs) frequentemente envolvem a divisão de respostas em múltiplos passos de raciocínio usando técnicas baseadas em regras, como o uso de tokens de espaço reservado predefinidos ou a definição do comprimento do passo de raciocínio em um tamanho fixo. Essas abordagens ignoram o fato de que palavras específicas geralmente não marcam verdadeiros pontos de decisão em um texto. Para resolver isso, propomos o AdaptiveStep, um método que divide os passos de raciocínio com base na confiança do modelo em prever a próxima palavra. Esse método de divisão fornece mais informações de tomada de decisão em cada etapa, melhorando tarefas subsequentes, como o aprendizado de modelos de recompensa. Além disso, nosso método não requer anotação manual. Demonstramos sua eficácia por meio de experimentos com PRMs treinados com AdaptiveStep em tarefas de raciocínio matemático e geração de código. Os resultados experimentais indicam que o PRM resultante alcança desempenho Best-of-N de ponta, superando a estratégia de busca gulosa com decodificação guiada por valor em nível de token, ao mesmo tempo em que reduz os custos de construção em mais de 30% em comparação com PRMs de código aberto existentes. Além disso, fornecemos uma análise detalhada e um estudo de caso sobre o desempenho, transferibilidade e capacidades de generalização do PRM.

English

Current approaches for training Process Reward Models (PRMs) often involve breaking down responses into multiple reasoning steps using rule-based techniques, such as using predefined placeholder tokens or setting the reasoning step's length into a fixed size. These approaches overlook the fact that specific words do not typically mark true decision points in a text. To address this, we propose AdaptiveStep, a method that divides reasoning steps based on the model's confidence in predicting the next word. This division method provides more decision-making information at each step, enhancing downstream tasks, such as reward model learning. Moreover, our method does not require manual annotation. We demonstrate its effectiveness through experiments with AdaptiveStep-trained PRMs in mathematical reasoning and code generation tasks. Experimental results indicate that the outcome PRM achieves state-of-the-art Best-of-N performance, surpassing greedy search strategy with token-level value-guided decoding, while also reducing construction costs by over 30% compared to existing open-source PRMs. In addition, we provide a thorough analysis and case study on the PRM's performance, transferability, and generalization capabilities.

AdaptiveStep: Divisão Automática de Etapas de Raciocínio por meio da Confiança do Modelo

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

Resumo

Support