ChatPaper.aiChatPaper

Parte I: Trucchi o Trappole? Un'Analisi Approfondita dell'Apprendimento per Rinforzo nel Ragionamento dei Modelli Linguistici

Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

August 11, 2025
Autori: Zihe Liu, Jiashun Liu, Yancheng He, Weixun Wang, Jiaheng Liu, Ling Pan, Xinyu Hu, Shaopan Xiong, Ju Huang, Jian Hu, Shengyi Huang, Siran Yang, Jiamang Wang, Wenbo Su, Bo Zheng
cs.AI

Abstract

L'apprendimento per rinforzo per il ragionamento dei modelli linguistici di grandi dimensioni (LLM) è rapidamente emerso come un'area di ricerca di primo piano, caratterizzata da un significativo aumento degli studi correlati sia sulle innovazioni algoritmiche che sulle applicazioni pratiche. Nonostante questi progressi, permangono diverse sfide critiche, tra cui l'assenza di linee guida standardizzate per l'impiego delle tecniche di apprendimento per rinforzo e una comprensione frammentata dei loro meccanismi sottostanti. Inoltre, impostazioni sperimentali inconsistenti, variazioni nei dati di addestramento e differenze nell'inizializzazione dei modelli hanno portato a conclusioni contrastanti, oscurando le caratteristiche chiave di queste tecniche e creando confusione tra i professionisti nella selezione delle tecniche appropriate. Questo articolo esamina sistematicamente le tecniche di apprendimento per rinforzo ampiamente adottate attraverso riproduzioni rigorose e valutazioni isolate all'interno di un framework open-source unificato. Analizziamo i meccanismi interni, gli scenari applicabili e i principi fondamentali di ciascuna tecnica attraverso esperimenti dettagliati, inclusi dataset di difficoltà variabile, dimensioni dei modelli e architetture diverse. Sulla base di queste intuizioni, presentiamo linee guida chiare per la selezione delle tecniche di apprendimento per rinforzo adattate a configurazioni specifiche e forniamo una roadmap affidabile per i professionisti che operano nel dominio dell'apprendimento per rinforzo per i LLM. Infine, riveliamo che una combinazione minimalista di due tecniche può sbloccare la capacità di apprendimento di politiche senza critico utilizzando la semplice perdita PPO. I risultati dimostrano che la nostra combinazione semplice migliora costantemente le prestazioni, superando strategie come GRPO e DAPO.
English
Reinforcement learning for LLM reasoning has rapidly emerged as a prominent research area, marked by a significant surge in related studies on both algorithmic innovations and practical applications. Despite this progress, several critical challenges remain, including the absence of standardized guidelines for employing RL techniques and a fragmented understanding of their underlying mechanisms. Additionally, inconsistent experimental settings, variations in training data, and differences in model initialization have led to conflicting conclusions, obscuring the key characteristics of these techniques and creating confusion among practitioners when selecting appropriate techniques. This paper systematically reviews widely adopted RL techniques through rigorous reproductions and isolated evaluations within a unified open-source framework. We analyze the internal mechanisms, applicable scenarios, and core principles of each technique through fine-grained experiments, including datasets of varying difficulty, model sizes, and architectures. Based on these insights, we present clear guidelines for selecting RL techniques tailored to specific setups, and provide a reliable roadmap for practitioners navigating the RL for the LLM domain. Finally, we reveal that a minimalist combination of two techniques can unlock the learning capability of critic-free policies using vanilla PPO loss. The results demonstrate that our simple combination consistently improves performance, surpassing strategies like GRPO and DAPO.
PDF474August 12, 2025