Recompensando o Raro: RL com Consciência da Singularidade para Resolução Criativa de Problemas em LLMs

Resumo

A aprendizagem por reforço (RL) tornou-se um paradigma central para o pós-treinamento de grandes modelos de linguagem (LLMs), particularmente para tarefas de raciocínio complexo. No entanto, ela frequentemente sofre de um colapso na exploração: as políticas prematuramente se concentram num pequeno conjunto de padrões de raciocínio dominantes, melhorando a métrica pass@1 enquanto limitam a diversidade ao nível de rollouts (simulações completas) e os ganhos em pass@k. Argumentamos que esta falha decorre da regularização do comportamento local dos *tokens*, em vez da diversidade sobre conjuntos de soluções. Para resolver isto, propomos a Aprendizagem por Reforço com Consciência da Unicidade, um objetivo ao nível do *rollout* que recompensa explicitamente soluções corretas que exibem estratégias de alto nível raras. O nosso método utiliza um juízo baseado em LLM para agrupar *rollouts* para o mesmo problema de acordo com as suas estratégias de solução de alto nível, ignorando variações superficiais, e repondera as vantagens da política inversamente ao tamanho do *cluster*. Como resultado, estratégias corretas mas novas recebem recompensas mais altas do que as redundantes. Em benchmarks de raciocínio matemático, físico e médico, a nossa abordagem melhora consistentemente o pass@k para grandes orçamentos de amostragem e aumenta a área sob a curva pass@k (AUC@K) sem sacrificar o pass@1, mantendo simultaneamente a exploração e descobrindo estratégias de solução mais diversas em escala.

English

Reinforcement learning (RL) has become a central paradigm for post-training large language models (LLMs), particularly for complex reasoning tasks, yet it often suffers from exploration collapse: policies prematurely concentrate on a small set of dominant reasoning patterns, improving pass@1 while limiting rollout-level diversity and gains in pass@k. We argue that this failure stems from regularizing local token behavior rather than diversity over sets of solutions. To address this, we propose Uniqueness-Aware Reinforcement Learning, a rollout-level objective that explicitly rewards correct solutions that exhibit rare high-level strategies. Our method uses an LLM-based judge to cluster rollouts for the same problem according to their high-level solution strategies, ignoring superficial variations, and reweights policy advantages inversely with cluster size. As a result, correct but novel strategies receive higher rewards than redundant ones. Across mathematics, physics, and medical reasoning benchmarks, our approach consistently improves pass@k across large sampling budgets and increases the area under the pass@k curve (AUC@K) without sacrificing pass@1, while sustaining exploration and uncovering more diverse solution strategies at scale.

Recompensando o Raro: RL com Consciência da Singularidade para Resolução Criativa de Problemas em LLMs

Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

Resumo

Support