ChatPaper.aiChatPaper

Projetos de Recompensa Baseados em Verossimilhança para Raciocínio Geral em LLMs

Likelihood-Based Reward Designs for General LLM Reasoning

February 3, 2026
Autores: Ariel Kwiatkowski, Natasha Butt, Ismail Labiad, Julia Kempe, Yann Ollivier
cs.AI

Resumo

O ajuste fino de grandes modelos de linguagem (LLMs) em benchmarks de raciocínio através de aprendizagem por reforço requer uma função de recompensa específica, frequentemente binária, para cada benchmark. Isto acarreta duas limitações potenciais: a necessidade de conceber a recompensa e a natureza potencialmente esparsa das recompensas binárias. Aqui, investigamos sistematicamente recompensas derivadas da probabilidade ou log-probabilidade de emitir a resposta de referência (ou qualquer outra continuação de *prompt* presente nos dados), que têm a vantagem de não depender de verificadores específicos e de estarem disponíveis em escala. Vários trabalhos recentes têm defendido a utilização de recompensas semelhantes (por exemplo, VeriFree, JEPO, RLPR, NOVER). Comparamos sistematicamente variantes de recompensas baseadas em verosimilhança com *baselines* padrão, testando o desempenho tanto em benchmarks padrão de raciocínio matemático, como em respostas de longo formato onde não existe um verificador externo disponível. Concluímos que utilizar a log-probabilidade da resposta de referência como recompensa para a aprendizagem de *chain-of-thought* (CoT) é a única opção que apresenta bom desempenho em todas as configurações. Esta recompensa é também consistente com a perda de log-verosimilhança do próximo *token* utilizada durante o pré-treinamento. Em contextos verificáveis, as recompensas de log-probabilidade proporcionam taxas de sucesso comparáveis ou superiores às obtidas com as recompensas binárias padrão, e produzem uma perplexidade muito melhor. Em contextos não verificáveis, o seu desempenho é equivalente ao do SFT (*Supervised Fine-Tuning*). Por outro lado, métodos baseados em probabilidade, como o VeriFree, estagnam em contextos não verificáveis devido ao desaparecimento das probabilidades de obter a resposta correta. Globalmente, isto estabelece as recompensas de log-probabilidade como um método viável para o ajuste fino de CoT, estabelecendo uma ponte entre os contextos de respostas curtas e verificáveis e os de respostas longas e não verificáveis.
English
Fine-tuning large language models (LLMs) on reasoning benchmarks via reinforcement learning requires a specific reward function, often binary, for each benchmark. This comes with two potential limitations: the need to design the reward, and the potentially sparse nature of binary rewards. Here, we systematically investigate rewards derived from the probability or log-probability of emitting the reference answer (or any other prompt continuation present in the data), which have the advantage of not relying on specific verifiers and being available at scale. Several recent works have advocated for the use of similar rewards (e.g., VeriFree, JEPO, RLPR, NOVER). We systematically compare variants of likelihood-based rewards with standard baselines, testing performance both on standard mathematical reasoning benchmarks, and on long-form answers where no external verifier is available. We find that using the log-probability of the reference answer as the reward for chain-of-thought (CoT) learning is the only option that performs well in all setups. This reward is also consistent with the next-token log-likelihood loss used during pretraining. In verifiable settings, log-probability rewards bring comparable or better success rates than reinforcing with standard binary rewards, and yield much better perplexity. In non-verifiable settings, they perform on par with SFT. On the other hand, methods based on probability, such as VeriFree, flatline on non-verifiable settings due to vanishing probabilities of getting the correct answer. Overall, this establishes log-probability rewards as a viable method for CoT fine-tuning, bridging the short, verifiable and long, non-verifiable answer settings.
PDF70February 6, 2026