Il Reinforcement Learning Incentivizza Davvero la Capacità di Ragionamento nei Modelli Linguistici di Grande Scala Oltre il Modello Base?Does Reinforcement Learning Really Incentivize Reasoning Capacity in
LLMs Beyond the Base Model?
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha recentemente dimostrato un notevole successo nel potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM), in particolare nei compiti di matematica e programmazione. Si ritiene ampiamente che l'RLVR consenta agli LLM di migliorare continuamente se stessi, acquisendo così nuove abilità di ragionamento che superano la capacità dei modelli base corrispondenti. In questo studio, tuttavia, esaminiamo criticamente questa ipotesi misurando la metrica pass@k con valori elevati di k per esplorare il confine delle capacità di ragionamento dei modelli attraverso una vasta gamma di famiglie di modelli e benchmark. Sorprendentemente, l'RL non evoca, di fatto, nuovi schemi di ragionamento fondamentali. Sebbene i modelli addestrati con RL superino i loro modelli base per valori più piccoli di k (ad esempio, k=1), i modelli base possono raggiungere un punteggio pass@k comparabile o addirittura superiore rispetto alle loro controparti RL per valori elevati di k. I percorsi di ragionamento generati dai modelli addestrati con RL sono già inclusi nella distribuzione di campionamento dei modelli base, suggerendo che la maggior parte delle capacità di ragionamento manifestate nei modelli addestrati con RL siano già ottenute dai modelli base. Un'ulteriore analisi mostra che l'addestramento con RL migliora le prestazioni orientando la distribuzione di output del modello verso percorsi che hanno maggiori probabilità di produrre ricompense, campionando così le risposte corrette in modo più efficiente. Ma ciò comporta anche un confine più ristretto delle capacità di ragionamento rispetto ai modelli base. Risultati simili si osservano nei compiti di ragionamento visivo addestrati con RLVR. Inoltre, scopriamo che la distillazione può introdurre genuinamente nuove conoscenze nel modello, diversamente dall'RLVR. Questi risultati evidenziano una limitazione critica dell'RLVR nel progredire le capacità di ragionamento degli LLM, che ci obbliga a ripensare fondamentalmente l'impatto dell'addestramento con RL nei modelli di ragionamento LLM e la necessità di un paradigma migliore. Pagina del progetto: https://limit-of-RLVR.github.io