GenPRM: Skalierung der Testzeit-Berechnung von Prozess-Belohnungsmodellen durch generatives Denken

papers.abstract

Jüngste Fortschritte bei Large Language Models (LLMs) haben gezeigt, dass der Einsatz von Process Reward Models (PRMs) als Verifizierer vielversprechend ist, um die Leistung von LLMs zu verbessern. Aktuelle PRMs stehen jedoch vor drei zentralen Herausforderungen: (1) begrenzte Fähigkeiten zur Prozessüberwachung und Generalisierung, (2) Abhängigkeit von der Vorhersage skalarer Werte ohne Nutzung der generativen Fähigkeiten von LLMs und (3) die Unfähigkeit, die Rechenleistung von PRMs zur Testzeit zu skalieren. In dieser Arbeit stellen wir GenPRM vor, ein generatives Prozess-Belohnungsmodell, das explizite Chain-of-Thought (CoT)-Argumentation mit Code-Verifizierung durchführt, bevor es eine Bewertung für jeden Argumentationsschritt abgibt. Um hochwertige Prozessüberwachungs-Labels und Begründungsdaten zu erhalten, schlagen wir Relative Progress Estimation (RPE) und ein Begründungssynthese-Framework vor, das Code-Verifizierung integriert. Experimentelle Ergebnisse auf ProcessBench und mehreren mathematischen Argumentationsaufgaben zeigen, dass GenPRM frühere PRMs deutlich übertrifft, obwohl es nur mit 23K Trainingsdaten aus dem MATH-Datensatz trainiert wurde. Durch Skalierung zur Testzeit übertrifft ein 1,5B GenPRM GPT-4o, und ein 7B GenPRM übertrifft Qwen2.5-Math-PRM-72B auf ProcessBench. Zudem zeigt GenPRM starke Fähigkeiten als Kritikmodell zur Verfeinerung von Policy-Modellen. Diese Arbeit etabliert ein neues Paradigma für die Prozessüberwachung, das die Lücke zwischen PRMs und Kritikmodellen in LLMs schließt. Unser Code, Modell und Daten werden unter https://ryanliu112.github.io/GenPRM verfügbar sein.

English

Recent advancements in Large Language Models (LLMs) have shown that it is promising to utilize Process Reward Models (PRMs) as verifiers to enhance the performance of LLMs. However, current PRMs face three key challenges: (1) limited process supervision and generalization capabilities, (2) dependence on scalar value prediction without leveraging the generative abilities of LLMs, and (3) inability to scale the test-time compute of PRMs. In this work, we introduce GenPRM, a generative process reward model that performs explicit Chain-of-Thought (CoT) reasoning with code verification before providing judgment for each reasoning step. To obtain high-quality process supervision labels and rationale data, we propose Relative Progress Estimation (RPE) and a rationale synthesis framework that incorporates code verification. Experimental results on ProcessBench and several mathematical reasoning tasks show that GenPRM significantly outperforms prior PRMs with only 23K training data from MATH dataset. Through test-time scaling, a 1.5B GenPRM outperforms GPT-4o, and a 7B GenPRM surpasses Qwen2.5-Math-PRM-72B on ProcessBench. Additionally, GenPRM demonstrates strong abilities to serve as a critic model for policy model refinement. This work establishes a new paradigm for process supervision that bridges the gap between PRMs and critic models in LLMs. Our code, model, and data will be available in https://ryanliu112.github.io/GenPRM.

GenPRM: Skalierung der Testzeit-Berechnung von Prozess-Belohnungsmodellen durch generatives Denken

GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

papers.abstract

Support