AdaptiveStep: División Automática de Pasos de Razonamiento mediante la Confianza del Modelo

Resumen

Los enfoques actuales para entrenar Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) suelen implicar la descomposición de respuestas en múltiples pasos de razonamiento utilizando técnicas basadas en reglas, como el uso de tokens de marcador predefinidos o la fijación de la longitud de los pasos de razonamiento en un tamaño fijo. Estos enfoques pasan por alto el hecho de que palabras específicas no suelen marcar verdaderos puntos de decisión en un texto. Para abordar esto, proponemos AdaptiveStep, un método que divide los pasos de razonamiento en función de la confianza del modelo para predecir la siguiente palabra. Este método de división proporciona más información para la toma de decisiones en cada paso, mejorando tareas posteriores, como el aprendizaje de modelos de recompensa. Además, nuestro método no requiere anotación manual. Demostramos su efectividad a través de experimentos con PRMs entrenados con AdaptiveStep en tareas de razonamiento matemático y generación de código. Los resultados experimentales indican que el PRM resultante alcanza un rendimiento Best-of-N de vanguardia, superando la estrategia de búsqueda codiciosa con decodificación guiada por valores a nivel de token, al mismo tiempo que reduce los costos de construcción en más del 30% en comparación con los PRMs de código abierto existentes. Además, proporcionamos un análisis exhaustivo y un estudio de caso sobre el rendimiento, la transferibilidad y las capacidades de generalización del PRM.

English

Current approaches for training Process Reward Models (PRMs) often involve breaking down responses into multiple reasoning steps using rule-based techniques, such as using predefined placeholder tokens or setting the reasoning step's length into a fixed size. These approaches overlook the fact that specific words do not typically mark true decision points in a text. To address this, we propose AdaptiveStep, a method that divides reasoning steps based on the model's confidence in predicting the next word. This division method provides more decision-making information at each step, enhancing downstream tasks, such as reward model learning. Moreover, our method does not require manual annotation. We demonstrate its effectiveness through experiments with AdaptiveStep-trained PRMs in mathematical reasoning and code generation tasks. Experimental results indicate that the outcome PRM achieves state-of-the-art Best-of-N performance, surpassing greedy search strategy with token-level value-guided decoding, while also reducing construction costs by over 30% compared to existing open-source PRMs. In addition, we provide a thorough analysis and case study on the PRM's performance, transferability, and generalization capabilities.

AdaptiveStep: División Automática de Pasos de Razonamiento mediante la Confianza del Modelo

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

Resumen

Support