Ricompensare il Raro: RL Consapevole dell'Unicità per la Risoluzione Creativa di Problemi nei Modelli Linguistici

Abstract

L'apprendimento per rinforzo (RL) è diventato un paradigma centrale per il post-addestramento di grandi modelli linguistici (LLM), in particolare per compiti di ragionamento complesso, ma soffre spesso di un collasso esplorativo: le politiche si concentrano prematuramente su un ristretto insieme di pattern di ragionamento dominanti, migliorando il pass@1 limitando però la diversità a livello di rollout e i guadagni nel pass@k. Sosteniamo che questo fallimento derivi dal regolarizzare il comportamento locale del token piuttosto che la diversità su insiemi di soluzioni. Per affrontare ciò, proponiamo l'Apprendimento per Rinforzo con Consapevolezza dell'Unicità (Uniqueness-Aware Reinforcement Learning), un obiettivo a livello di rollout che premia esplicitamente le soluzioni corrette che mostrano strategie di alto livello rare. Il nostro metodo utilizza un giudice basato su LLM per raggruppare i rollout dello stesso problema in base alle loro strategie di soluzione di alto livello, ignorando le variazioni superficiali, e ripesa i vantaggi della politica in modo inversamente proporzionale alla dimensione del cluster. Di conseguenza, le strategie corrette ma innovative ricevono ricompense più elevate di quelle ridondanti. Su benchmark di ragionamento matematico, fisico e medico, il nostro approccio migliora costantemente il pass@k con ampi budget di campionamento e aumenta l'area sotto la curva pass@k (AUC@K) senza sacrificare il pass@1, mantenendo al contempo l'esplorazione e scoprendo strategie di soluzione più diversificate su larga scala.

English

Reinforcement learning (RL) has become a central paradigm for post-training large language models (LLMs), particularly for complex reasoning tasks, yet it often suffers from exploration collapse: policies prematurely concentrate on a small set of dominant reasoning patterns, improving pass@1 while limiting rollout-level diversity and gains in pass@k. We argue that this failure stems from regularizing local token behavior rather than diversity over sets of solutions. To address this, we propose Uniqueness-Aware Reinforcement Learning, a rollout-level objective that explicitly rewards correct solutions that exhibit rare high-level strategies. Our method uses an LLM-based judge to cluster rollouts for the same problem according to their high-level solution strategies, ignoring superficial variations, and reweights policy advantages inversely with cluster size. As a result, correct but novel strategies receive higher rewards than redundant ones. Across mathematics, physics, and medical reasoning benchmarks, our approach consistently improves pass@k across large sampling budgets and increases the area under the pass@k curve (AUC@K) without sacrificing pass@1, while sustaining exploration and uncovering more diverse solution strategies at scale.

Ricompensare il Raro: RL Consapevole dell'Unicità per la Risoluzione Creativa di Problemi nei Modelli Linguistici

Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs

Abstract

Support