Bewertung des Schlussfolgerns bei LLMs-as-Judges in nicht verifizierbaren LLM-Nachtrainingsprozessen

Zusammenfassung

Reasoning-LLMs-als-Jurymitglieder, die von Skalierung zur Inferenzzeit profitieren können, bieten einen vielversprechenden Weg, um den Erfolg von Reasoning-Modellen auf nicht verifizierbare Domänen auszudehnen, in denen die Korrektheit/Qualität der Ausgabe nicht direkt überprüft werden kann. Während Reasoning-Jurys jedoch eine bessere Leistung auf statischen Evaluierungs-Benchmarks gezeigt haben, wurde ihre Wirksamkeit im tatsächlichen Policy-Training nicht systematisch untersucht. Daher führen wir eine rigorose Studie durch, um die tatsächliche Auswirkung von nicht-reasoning- und reasoning-Jurys in der reinforcement-learning-basierten LLM-Alignment zu untersuchen. Unser kontrolliertes synthetisches Setting, in dem ein "Goldstandard"-Jurymitglied (gpt-oss-120b) Präferenzannotationen bereitstellt, um kleinere Jurymitglieder zu trainieren, zeigt wesentliche Unterschiede zwischen nicht-reasoning- und reasoning-Jurys auf: Nicht-reasoning-Jurys führen leicht zu Reward-Hacking, während reasoning-Jurys zu Policies führen können, die eine starke Leistung erzielen, wenn sie durch das Goldstandard-Jurymitglied evaluiert werden. Interessanterweise stellen wir fest, dass die durch reasoning-Jurys trainierten Policies diese starke Leistung erreichen, indem sie lernen, hochwirksame adversariale Ausgaben zu generieren, die auch auf populären Benchmarks wie Arena-Hard gut abschneiden können, indem sie andere LLM-Jurys täuschen. In Kombination mit unserer weiteren Analyse unterstreicht unsere Studie sowohl wichtige Erkenntnisse als auch Verbesserungspotenzial für die Anwendung von (reasoning-)LLM-Jurys im nicht verifizierbaren Post-Training von LLMs.

English

Reasoning LLMs-as-Judges, which can benefit from inference-time scaling, provide a promising path for extending the success of reasoning models to non-verifiable domains where the output correctness/quality cannot be directly checked. However, while reasoning judges have shown better performance on static evaluation benchmarks, their effectiveness in actual policy training has not been systematically examined. Therefore, we conduct a rigorous study to investigate the actual impact of non-reasoning and reasoning judges in reinforcement-learning-based LLM alignment. Our controlled synthetic setting, where a "gold-standard" judge (gpt-oss-120b) provides preference annotations to train smaller judges, reveals key differences between non-reasoning and reasoning judges: non-reasoning judges lead to reward hacking easily, while reasoning judges can lead to policies that achieve strong performance when evaluated by the gold-standard judge. Interestingly, we find that the reasoning-judge-trained policies achieve such strong performance by learning to generate highly effective adversarial outputs that can also score well on popular benchmarks such as Arena-Hard by deceiving other LLM-judges. Combined with our further analysis, our study highlights both important findings and room for improvements for applying (reasoning) LLM-judges in non-verifiable LLM post-training.

Bewertung des Schlussfolgerns bei LLMs-as-Judges in nicht verifizierbaren LLM-Nachtrainingsprozessen

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Zusammenfassung

Support