ChatPaper.aiChatPaper

J1: Incentivizando o Pensamento em LLM-como-Juiz por meio de Aprendizado por Reforço

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15, 2025
Autores: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha
cs.AI

Resumo

O progresso da IA é limitado pela qualidade da avaliação, e modelos poderosos de LLM-como-Juiz provaram ser uma solução central. A melhoria da capacidade de julgamento é possibilitada por um raciocínio em cadeia de pensamento mais forte, motivando a necessidade de encontrar as melhores abordagens para treinar tais modelos a pensar. Neste trabalho, introduzimos o J1, uma abordagem de aprendizado por reforço para treinar esses modelos. Nosso método converte tanto prompts verificáveis quanto não verificáveis em tarefas de julgamento com recompensas verificáveis que incentivam o pensamento e mitigam o viés de julgamento. Em particular, nossa abordagem supera todos os outros modelos existentes de 8B ou 70B quando treinados nesses tamanhos, incluindo modelos destilados do DeepSeek-R1. O J1 também supera o o1-mini e, em alguns benchmarks, até mesmo o R1, apesar de treinar um modelo menor. Fornecemos análises e ablações comparando modelos Pairwise-J1 versus Pointwise-J1, receitas de treinamento offline versus online, estratégias de recompensa, prompts iniciais e variações no comprimento e conteúdo do pensamento. Descobrimos que nossos modelos fazem julgamentos melhores ao aprender a delinear critérios de avaliação, comparar com respostas de referência autogeradas e reavaliar a correção das respostas do modelo.
English
The progress of AI is bottlenecked by the quality of evaluation, and powerful LLM-as-a-Judge models have proved to be a core solution. Improved judgment ability is enabled by stronger chain-of-thought reasoning, motivating the need to find the best recipes for training such models to think. In this work we introduce J1, a reinforcement learning approach to training such models. Our method converts both verifiable and non-verifiable prompts to judgment tasks with verifiable rewards that incentivize thinking and mitigate judgment bias. In particular, our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model. We provide analysis and ablations comparing Pairwise-J1 vs Pointwise-J1 models, offline vs online training recipes, reward strategies, seed prompts, and variations in thought length and content. We find that our models make better judgments by learning to outline evaluation criteria, comparing against self-generated reference answers, and re-evaluating the correctness of model responses.
PDF242May 16, 2025