AdaptiveStep: Divisão Automática de Etapas de Raciocínio por meio da Confiança do Modelo
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence
February 19, 2025
Autores: Yuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin
cs.AI
Resumo
As abordagens atuais para treinar Modelos de Recompensa de Processo (PRMs) frequentemente envolvem a divisão de respostas em múltiplos passos de raciocínio usando técnicas baseadas em regras, como o uso de tokens de espaço reservado predefinidos ou a definição do comprimento do passo de raciocínio em um tamanho fixo. Essas abordagens ignoram o fato de que palavras específicas geralmente não marcam verdadeiros pontos de decisão em um texto. Para resolver isso, propomos o AdaptiveStep, um método que divide os passos de raciocínio com base na confiança do modelo em prever a próxima palavra. Esse método de divisão fornece mais informações de tomada de decisão em cada etapa, melhorando tarefas subsequentes, como o aprendizado de modelos de recompensa. Além disso, nosso método não requer anotação manual. Demonstramos sua eficácia por meio de experimentos com PRMs treinados com AdaptiveStep em tarefas de raciocínio matemático e geração de código. Os resultados experimentais indicam que o PRM resultante alcança desempenho Best-of-N de ponta, superando a estratégia de busca gulosa com decodificação guiada por valor em nível de token, ao mesmo tempo em que reduz os custos de construção em mais de 30% em comparação com PRMs de código aberto existentes. Além disso, fornecemos uma análise detalhada e um estudo de caso sobre o desempenho, transferibilidade e capacidades de generalização do PRM.
English
Current approaches for training Process Reward Models (PRMs) often involve
breaking down responses into multiple reasoning steps using rule-based
techniques, such as using predefined placeholder tokens or setting the
reasoning step's length into a fixed size. These approaches overlook the fact
that specific words do not typically mark true decision points in a text. To
address this, we propose AdaptiveStep, a method that divides reasoning steps
based on the model's confidence in predicting the next word. This division
method provides more decision-making information at each step, enhancing
downstream tasks, such as reward model learning. Moreover, our method does not
require manual annotation. We demonstrate its effectiveness through experiments
with AdaptiveStep-trained PRMs in mathematical reasoning and code generation
tasks. Experimental results indicate that the outcome PRM achieves
state-of-the-art Best-of-N performance, surpassing greedy search strategy with
token-level value-guided decoding, while also reducing construction costs by
over 30% compared to existing open-source PRMs. In addition, we provide a
thorough analysis and case study on the PRM's performance, transferability, and
generalization capabilities.Summary
AI-Generated Summary