ChatPaper.aiChatPaper

AdaptiveStep: Автоматическое разделение шагов рассуждений на основе уверенности модели

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

February 19, 2025
Авторы: Yuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin
cs.AI

Аннотация

Современные подходы к обучению моделей вознаграждения процессов (PRMs) часто включают разбиение ответов на несколько шагов рассуждения с использованием правил, таких как применение предопределённых токенов-заполнителей или фиксация длины шага рассуждения. Эти подходы упускают из виду тот факт, что конкретные слова обычно не являются истинными точками принятия решений в тексте. Для решения этой проблемы мы предлагаем метод AdaptiveStep, который разделяет шаги рассуждения на основе уверенности модели в предсказании следующего слова. Такой подход обеспечивает больше информации для принятия решений на каждом шаге, улучшая выполнение последующих задач, таких как обучение модели вознаграждения. Кроме того, наш метод не требует ручной аннотации. Мы демонстрируем его эффективность в экспериментах с PRMs, обученными с использованием AdaptiveStep, на задачах математического рассуждения и генерации кода. Результаты экспериментов показывают, что полученная PRM достигает наилучших показателей в стратегии Best-of-N, превосходя стратегию жадного поиска с декодированием, управляемым значением на уровне токенов, а также снижает затраты на построение более чем на 30% по сравнению с существующими открытыми PRMs. Дополнительно мы проводим детальный анализ и кейс-стади по производительности, переносимости и обобщающей способности PRM.
English
Current approaches for training Process Reward Models (PRMs) often involve breaking down responses into multiple reasoning steps using rule-based techniques, such as using predefined placeholder tokens or setting the reasoning step's length into a fixed size. These approaches overlook the fact that specific words do not typically mark true decision points in a text. To address this, we propose AdaptiveStep, a method that divides reasoning steps based on the model's confidence in predicting the next word. This division method provides more decision-making information at each step, enhancing downstream tasks, such as reward model learning. Moreover, our method does not require manual annotation. We demonstrate its effectiveness through experiments with AdaptiveStep-trained PRMs in mathematical reasoning and code generation tasks. Experimental results indicate that the outcome PRM achieves state-of-the-art Best-of-N performance, surpassing greedy search strategy with token-level value-guided decoding, while also reducing construction costs by over 30% compared to existing open-source PRMs. In addition, we provide a thorough analysis and case study on the PRM's performance, transferability, and generalization capabilities.

Summary

AI-Generated Summary

PDF82February 20, 2025