AdaptiveStep: División Automática de Pasos de Razonamiento mediante la Confianza del Modelo
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence
February 19, 2025
Autores: Yuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin
cs.AI
Resumen
Los enfoques actuales para entrenar Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) suelen implicar la descomposición de respuestas en múltiples pasos de razonamiento utilizando técnicas basadas en reglas, como el uso de tokens de marcador predefinidos o la fijación de la longitud de los pasos de razonamiento en un tamaño fijo. Estos enfoques pasan por alto el hecho de que palabras específicas no suelen marcar verdaderos puntos de decisión en un texto. Para abordar esto, proponemos AdaptiveStep, un método que divide los pasos de razonamiento en función de la confianza del modelo para predecir la siguiente palabra. Este método de división proporciona más información para la toma de decisiones en cada paso, mejorando tareas posteriores, como el aprendizaje de modelos de recompensa. Además, nuestro método no requiere anotación manual. Demostramos su efectividad a través de experimentos con PRMs entrenados con AdaptiveStep en tareas de razonamiento matemático y generación de código. Los resultados experimentales indican que el PRM resultante alcanza un rendimiento Best-of-N de vanguardia, superando la estrategia de búsqueda codiciosa con decodificación guiada por valores a nivel de token, al mismo tiempo que reduce los costos de construcción en más del 30% en comparación con los PRMs de código abierto existentes. Además, proporcionamos un análisis exhaustivo y un estudio de caso sobre el rendimiento, la transferibilidad y las capacidades de generalización del PRM.
English
Current approaches for training Process Reward Models (PRMs) often involve
breaking down responses into multiple reasoning steps using rule-based
techniques, such as using predefined placeholder tokens or setting the
reasoning step's length into a fixed size. These approaches overlook the fact
that specific words do not typically mark true decision points in a text. To
address this, we propose AdaptiveStep, a method that divides reasoning steps
based on the model's confidence in predicting the next word. This division
method provides more decision-making information at each step, enhancing
downstream tasks, such as reward model learning. Moreover, our method does not
require manual annotation. We demonstrate its effectiveness through experiments
with AdaptiveStep-trained PRMs in mathematical reasoning and code generation
tasks. Experimental results indicate that the outcome PRM achieves
state-of-the-art Best-of-N performance, surpassing greedy search strategy with
token-level value-guided decoding, while also reducing construction costs by
over 30% compared to existing open-source PRMs. In addition, we provide a
thorough analysis and case study on the PRM's performance, transferability, and
generalization capabilities.Summary
AI-Generated Summary