Die Lehren aus der Entwicklung von Prozessbelohnungsmodellen in mathematischem DenkenThe Lessons of Developing Process Reward Models in Mathematical
Reasoning
Prozessbelohnungsmodelle (PRMs) erweisen sich als vielversprechender Ansatz für die Prozessaufsicht bei mathematischem Denken von Großen Sprachmodellen (LLMs), die darauf abzielen, Zwischenfehler in den Denkprozessen zu identifizieren und zu mildern. Die Entwicklung effektiver PRMs steht jedoch vor erheblichen Herausforderungen, insbesondere bei der Datenannotation und Evaluierungsmethoden. In diesem Paper zeigen wir durch umfangreiche Experimente, dass die häufig verwendete datenbasierte Synthese für PRMs auf Monte-Carlo-Schätzungen (MC) in der Regel eine schlechtere Leistung und Generalisierung im Vergleich zu LLM-als-Richter und menschlichen Annotationsmethoden liefert. MC-Schätzungen stützen sich auf Abschlussmodelle zur Bewertung der Korrektheit des aktuellen Schritts, was zu einer ungenauen Schrittverifizierung führt. Darüber hinaus identifizieren wir potenzielle Verzerrungen in herkömmlichen Best-of-N (BoN) Evaluierungsstrategien für PRMs: (1) Die unzuverlässigen Richtlinienmodelle generieren Antworten mit korrekten Antworten, aber fehlerhaften Prozessen, was zu einer Diskrepanz zwischen den Evaluierungskriterien von BoN und den PRM-Zielen der Prozessverifizierung führt. (2) Die Toleranz von PRMs gegenüber solchen Antworten führt zu aufgeblähten BoN-Werten. (3) Bestehende PRMs weisen einen signifikanten Anteil an Mindestwerten auf, die sich auf die abschließenden Antwortschritte konzentrieren, was den Übergang von prozess- zu ergebnisorientierter Bewertung in BoN-optimierten PRMs zeigt. Um diesen Herausforderungen zu begegnen, entwickeln wir einen Konsensfiltermechanismus, der MC-Schätzungen effektiv mit LLM-als-Richter integriert und ein umfassenderes Evaluierungsrahmenwerk befürwortet, das Antwort- und Schrittmessungen kombiniert. Basierend auf diesen Mechanismen verbessern wir signifikant sowohl die Modellleistung als auch die Dateneffizienz bei der BoN-Evaluierung und der schrittweisen Fehleridentifikationsaufgabe. Abschließend veröffentlichen wir ein neues erstklassiges PRM, das bestehende Open-Source-Alternativen übertrifft und praktische Leitlinien für zukünftige Forschung im Aufbau von Prozessaufsichtsmodellen bietet.