ChatPaper.aiChatPaper

Типизация ошибок для более эффективных вознаграждений: улучшение моделей процессуальных вознаграждений с помощью иерархического контроля, учитывающего ошибки

Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision

May 26, 2025
Авторы: Tej Deep Pala, Panshul Sharma, Amir Zadeh, Chuan Li, Soujanya Poria
cs.AI

Аннотация

Крупные языковые модели (LLM) склонны к галлюцинациям, особенно при выполнении многошаговых и требующих сложных рассуждений задач, таких как решение математических задач. В то время как модели вознаграждения за результат проверяют только конечные ответы, модели вознаграждения за процесс (PRM) оценивают каждый промежуточный шаг, чтобы направлять генерацию в сторону последовательных решений. Мы представляем PathFinder-PRM — новую иерархическую, учитывающую ошибки дискриминативную PRM, которая сначала классифицирует математические и логические ошибки на каждом шаге, а затем объединяет эти детализированные сигналы для оценки правильности шага. Для обучения PathFinder-PRM мы создали набор данных из 400 тыс. образцов, обогатив аннотированный людьми корпус PRM800K и трассировки RLHFlow Mistral трехмерными метками на уровне шагов. На PRMBench PathFinder-PRM достигает нового рекордного значения PRMScore, равного 67.7, превосходя предыдущий лучший результат (65.5) при использовании в 3 раза меньшего объема данных. При применении к жадному поиску с управлением вознаграждением наша модель демонстрирует prm@8 48.3, что на 1.5 пункта выше, чем у самого сильного базового подхода. Эти результаты показывают, что разделение обнаружения ошибок и оценки вознаграждения не только улучшает детализированное обнаружение ошибок, но и существенно повышает эффективность сквозного, управляемого вознаграждением математического рассуждения при большей эффективности использования данных.
English
Large Language Models (LLMs) are prone to hallucination, especially during multi-hop and reasoning-intensive tasks such as mathematical problem solving. While Outcome Reward Models verify only final answers, Process Reward Models (PRMs) score each intermediate step to steer generation toward coherent solutions. We introduce PathFinder-PRM, a novel hierarchical, error-aware discriminative PRM that first classifies math and consistency errors at each step, then combines these fine-grained signals to estimate step correctness. To train PathFinder-PRM, we construct a 400K-sample dataset by enriching the human-annotated PRM800K corpus and RLHFlow Mistral traces with three-dimensional step-level labels. On PRMBench, PathFinder-PRM achieves a new state-of-the-art PRMScore of 67.7, outperforming the prior best (65.5) while using 3 times less data. When applied to reward guided greedy search, our model yields prm@8 48.3, a +1.5 point gain over the strongest baseline. These results demonstrate that decoupled error detection and reward estimation not only boost fine-grained error detection but also substantially improve end-to-end, reward-guided mathematical reasoning with greater data efficiency.

Summary

AI-Generated Summary

PDF32May 27, 2025