Valutazione del Ragionamento nei Modelli Linguistici come Giudici nel Post-Addestramento Non Verificabile dei Modelli Linguistici

Abstract

I modelli linguistici di ragionamento come giudici (Reasoning LLMs-as-Judges), che possono trarre vantaggio dallo scaling al momento dell'inferenza, offrono una strada promettente per estendere il successo dei modelli di ragionamento a domini non verificabili, dove la correttezza/qualità dell'output non può essere controllata direttamente. Tuttavia, sebbene i giudici basati sul ragionamento abbiano mostrato prestazioni migliori su benchmark di valutazione statica, la loro efficacia nell'addestramento effettivo delle politiche (policy training) non è stata esaminata in modo sistematico. Pertanto, conduciamo uno studio rigoroso per investigare l'impatto reale dei giudici non basati sul ragionamento e di quelli basati sul ragionamento nell'allineamento dei LLM basato sul reinforcement learning. Il nostro setting sintetico controllato, in cui un giudice "gold-standard" (gpt-oss-120b) fornisce annotazioni di preferenza per addestrare giudici più piccoli, rivela differenze chiave tra i due tipi: i giudici non basati sul ragionamento portano facilmente a reward hacking, mentre i giudici basati sul ragionamento possono portare a politiche che raggiungono prestazioni elevate quando valutate dal giudice gold-standard. Interessante notare che scopriamo che le politiche addestrate con giudici di ragionamento raggiungono tali prestazioni forti imparando a generare output adversarial altamente efficaci, che possono anche ottenere buoni punteggi su benchmark popolari come Arena-Hard ingannando altri LLM-giudice. In combinazione con le nostre ulteriori analisi, il nostro studio evidenzia sia risultati importanti che margini di miglioramento per l'applicazione dei LLM-giudice (di ragionamento) nel post-training di LLM in domini non verificabili.

English

Reasoning LLMs-as-Judges, which can benefit from inference-time scaling, provide a promising path for extending the success of reasoning models to non-verifiable domains where the output correctness/quality cannot be directly checked. However, while reasoning judges have shown better performance on static evaluation benchmarks, their effectiveness in actual policy training has not been systematically examined. Therefore, we conduct a rigorous study to investigate the actual impact of non-reasoning and reasoning judges in reinforcement-learning-based LLM alignment. Our controlled synthetic setting, where a "gold-standard" judge (gpt-oss-120b) provides preference annotations to train smaller judges, reveals key differences between non-reasoning and reasoning judges: non-reasoning judges lead to reward hacking easily, while reasoning judges can lead to policies that achieve strong performance when evaluated by the gold-standard judge. Interestingly, we find that the reasoning-judge-trained policies achieve such strong performance by learning to generate highly effective adversarial outputs that can also score well on popular benchmarks such as Arena-Hard by deceiving other LLM-judges. Combined with our further analysis, our study highlights both important findings and room for improvements for applying (reasoning) LLM-judges in non-verifiable LLM post-training.

Valutazione del Ragionamento nei Modelli Linguistici come Giudici nel Post-Addestramento Non Verificabile dei Modelli Linguistici

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Abstract

Support