GenPRM: Skalierung der Testzeit-Berechnung von Prozess-Belohnungsmodellen durch generatives Denken
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning
April 1, 2025
Autoren: Jian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Large Language Models (LLMs) haben gezeigt, dass der Einsatz von Process Reward Models (PRMs) als Verifizierer vielversprechend ist, um die Leistung von LLMs zu verbessern. Aktuelle PRMs stehen jedoch vor drei zentralen Herausforderungen: (1) begrenzte Fähigkeiten zur Prozessüberwachung und Generalisierung, (2) Abhängigkeit von der Vorhersage skalarer Werte ohne Nutzung der generativen Fähigkeiten von LLMs und (3) die Unfähigkeit, die Rechenleistung von PRMs zur Testzeit zu skalieren. In dieser Arbeit stellen wir GenPRM vor, ein generatives Prozess-Belohnungsmodell, das explizite Chain-of-Thought (CoT)-Argumentation mit Code-Verifizierung durchführt, bevor es eine Bewertung für jeden Argumentationsschritt abgibt. Um hochwertige Prozessüberwachungs-Labels und Begründungsdaten zu erhalten, schlagen wir Relative Progress Estimation (RPE) und ein Begründungssynthese-Framework vor, das Code-Verifizierung integriert. Experimentelle Ergebnisse auf ProcessBench und mehreren mathematischen Argumentationsaufgaben zeigen, dass GenPRM frühere PRMs deutlich übertrifft, obwohl es nur mit 23K Trainingsdaten aus dem MATH-Datensatz trainiert wurde. Durch Skalierung zur Testzeit übertrifft ein 1,5B GenPRM GPT-4o, und ein 7B GenPRM übertrifft Qwen2.5-Math-PRM-72B auf ProcessBench. Zudem zeigt GenPRM starke Fähigkeiten als Kritikmodell zur Verfeinerung von Policy-Modellen. Diese Arbeit etabliert ein neues Paradigma für die Prozessüberwachung, das die Lücke zwischen PRMs und Kritikmodellen in LLMs schließt. Unser Code, Modell und Daten werden unter https://ryanliu112.github.io/GenPRM verfügbar sein.
English
Recent advancements in Large Language Models (LLMs) have shown that it is
promising to utilize Process Reward Models (PRMs) as verifiers to enhance the
performance of LLMs. However, current PRMs face three key challenges: (1)
limited process supervision and generalization capabilities, (2) dependence on
scalar value prediction without leveraging the generative abilities of LLMs,
and (3) inability to scale the test-time compute of PRMs. In this work, we
introduce GenPRM, a generative process reward model that performs explicit
Chain-of-Thought (CoT) reasoning with code verification before providing
judgment for each reasoning step. To obtain high-quality process supervision
labels and rationale data, we propose Relative Progress Estimation (RPE) and a
rationale synthesis framework that incorporates code verification. Experimental
results on ProcessBench and several mathematical reasoning tasks show that
GenPRM significantly outperforms prior PRMs with only 23K training data from
MATH dataset. Through test-time scaling, a 1.5B GenPRM outperforms GPT-4o, and
a 7B GenPRM surpasses Qwen2.5-Math-PRM-72B on ProcessBench. Additionally,
GenPRM demonstrates strong abilities to serve as a critic model for policy
model refinement. This work establishes a new paradigm for process supervision
that bridges the gap between PRMs and critic models in LLMs. Our code, model,
and data will be available in https://ryanliu112.github.io/GenPRM.Summary
AI-Generated Summary