Examinando o Raciocínio de LLMs como Juízes no Pós-Treinamento de LLMs Não Verificáveis

Resumo

Os LLMs de Raciocínio como Juízes, que podem beneficiar-se da escalabilidade no momento da inferência, oferecem um caminho promissor para estender o sucesso dos modelos de raciocínio para domínios não verificáveis, onde a correção/qualidade da saída não pode ser verificada diretamente. No entanto, embora os juízes de raciocínio tenham demonstrado melhor desempenho em benchmarks de avaliação estática, sua eficácia no treinamento real de políticas não foi sistematicamente examinada. Portanto, realizamos um estudo rigoroso para investigar o impacto real de juízes sem raciocínio e com raciocínio no alinhamento de LLMs baseado em aprendizado por reforço. Nossa configuração sintética controlada, onde um juiz "padrão-ouro" (gpt-oss-120b) fornece anotações de preferência para treinar juízes menores, revela diferenças fundamentais entre juízes sem raciocínio e com raciocínio: juízes sem raciocínio levam facilmente a *reward hacking*, enquanto juízes com raciocínio podem resultar em políticas que alcançam um desempenho forte quando avaliadas pelo juiz padrão-ouro. Curiosamente, descobrimos que as políticas treinadas por juízes de raciocínio alcançam esse desempenho forte aprendendo a gerar saídas adversariais altamente eficazes que também podem pontuar bem em benchmarks populares, como o Arena-Hard, enganando outros juízes baseados em LLM. Combinado com nossa análise adicional, nosso estudo destaca tanto descobertas importantes quanto espaço para melhorias na aplicação de juízes baseados em LLM (de raciocínio) no pós-treinamento de LLMs em domínios não verificáveis.

English

Reasoning LLMs-as-Judges, which can benefit from inference-time scaling, provide a promising path for extending the success of reasoning models to non-verifiable domains where the output correctness/quality cannot be directly checked. However, while reasoning judges have shown better performance on static evaluation benchmarks, their effectiveness in actual policy training has not been systematically examined. Therefore, we conduct a rigorous study to investigate the actual impact of non-reasoning and reasoning judges in reinforcement-learning-based LLM alignment. Our controlled synthetic setting, where a "gold-standard" judge (gpt-oss-120b) provides preference annotations to train smaller judges, reveals key differences between non-reasoning and reasoning judges: non-reasoning judges lead to reward hacking easily, while reasoning judges can lead to policies that achieve strong performance when evaluated by the gold-standard judge. Interestingly, we find that the reasoning-judge-trained policies achieve such strong performance by learning to generate highly effective adversarial outputs that can also score well on popular benchmarks such as Arena-Hard by deceiving other LLM-judges. Combined with our further analysis, our study highlights both important findings and room for improvements for applying (reasoning) LLM-judges in non-verifiable LLM post-training.

Examinando o Raciocínio de LLMs como Juízes no Pós-Treinamento de LLMs Não Verificáveis

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Resumo

Support