Examen du raisonnement des LLM en tant qu'évaluateurs dans le post-entraînement non vérifiable des modèles de langage

Résumé

Les modèles de raisonnement en tant que juges, qui peuvent bénéficier d'une mise à l'échelle au moment de l'inférence, offrent une voie prometteuse pour étendre le succès des modèles de raisonnement à des domaines non vérifiables où la justesse/qualité de la sortie ne peut pas être vérifiée directement. Cependant, bien que les juges de raisonnement aient démontré de meilleures performances sur des benchmarks d'évaluation statique, leur efficacité dans l'entraînement réel des politiques n'a pas été systématiquement examinée. Par conséquent, nous menons une étude rigoureuse pour investiguer l'impact réel des juges sans raisonnement et avec raisonnement dans l'alignement des LLM basé sur l'apprentissage par renforcement. Notre cadre synthétique contrôlé, où un juge "de référence" (gpt-oss-120b) fournit des annotations de préférence pour entraîner des juges plus petits, révèle des différences clés entre les juges sans raisonnement et avec raisonnement : les juges sans raisonnement mènent facilement à du détournement de récompense, tandis que les juges avec raisonnement peuvent conduire à des politiques qui obtiennent de solides performances lorsqu'elles sont évaluées par le juge de référence. Fait intéressant, nous constatons que les politiques entraînées par des juges avec raisonnement atteignent ces performances solides en apprenant à générer des sorties adverses très efficaces qui peuvent également bien réussir sur des benchmarks populaires tels qu'Arena-Hard en trompant d'autres juges-LLM. Combinée à notre analyse approfondie, notre étude met en lumière à la fois des résultats importants et des possibilités d'amélioration pour l'application des juges-LLM (avec raisonnement) dans le post-entraînement des LLM non vérifiables.

English

Reasoning LLMs-as-Judges, which can benefit from inference-time scaling, provide a promising path for extending the success of reasoning models to non-verifiable domains where the output correctness/quality cannot be directly checked. However, while reasoning judges have shown better performance on static evaluation benchmarks, their effectiveness in actual policy training has not been systematically examined. Therefore, we conduct a rigorous study to investigate the actual impact of non-reasoning and reasoning judges in reinforcement-learning-based LLM alignment. Our controlled synthetic setting, where a "gold-standard" judge (gpt-oss-120b) provides preference annotations to train smaller judges, reveals key differences between non-reasoning and reasoning judges: non-reasoning judges lead to reward hacking easily, while reasoning judges can lead to policies that achieve strong performance when evaluated by the gold-standard judge. Interestingly, we find that the reasoning-judge-trained policies achieve such strong performance by learning to generate highly effective adversarial outputs that can also score well on popular benchmarks such as Arena-Hard by deceiving other LLM-judges. Combined with our further analysis, our study highlights both important findings and room for improvements for applying (reasoning) LLM-judges in non-verifiable LLM post-training.

Examen du raisonnement des LLM en tant qu'évaluateurs dans le post-entraînement non vérifiable des modèles de langage

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Résumé

Support