Ragionamento Intervallato per Modelli Linguistici di Grandi Dimensioni tramite Apprendimento per Rinforzo
Interleaved Reasoning for Large Language Models via Reinforcement Learning
May 26, 2025
Autori: Roy Xie, David Qiu, Deepak Gopinath, Dong Lin, Yanchao Sun, Chong Wang, Saloni Potdar, Bhuwan Dhingra
cs.AI
Abstract
Le lunghe catene di ragionamento (CoT) migliorano significativamente le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, le tracce di ragionamento estese portano a inefficienze e a un aumento del tempo per il primo token (TTFT). Proponiamo un nuovo paradigma di addestramento che utilizza l'apprendimento per rinforzo (RL) per guidare i modelli di ragionamento a intervallare pensiero e risposta per domande multi-hop. Osserviamo che i modelli possiedono intrinsecamente la capacità di eseguire ragionamenti intervallati, che può essere ulteriormente potenziata attraverso l'RL. Introduciamo una ricompensa basata su regole semplice ma efficace per incentivare i passaggi intermedi corretti, che guida il modello di policy verso percorsi di ragionamento corretti sfruttando i segnali intermedi generati durante il ragionamento intervallato. Esperimenti estesi condotti su cinque dataset diversi e tre algoritmi di RL (PPO, GRPO e REINFORCE++) dimostrano miglioramenti consistenti rispetto al tradizionale ragionamento pensa-risposta, senza richiedere strumenti esterni. In particolare, il nostro approccio riduce il TTFT in media di oltre l'80% e migliora fino al 19,3% nell'accuratezza Pass@1. Inoltre, il nostro metodo, addestrato esclusivamente su dataset di risposta alle domande e ragionamento logico, mostra una forte capacità di generalizzazione su dataset di ragionamento complesso come MATH, GPQA e MMLU. In aggiunta, conduciamo un'analisi approfondita per rivelare diverse intuizioni preziose sulla modellazione condizionale delle ricompense.
English
Long chain-of-thought (CoT) significantly enhances large language models'
(LLM) reasoning capabilities. However, the extensive reasoning traces lead to
inefficiencies and an increased time-to-first-token (TTFT). We propose a novel
training paradigm that uses reinforcement learning (RL) to guide reasoning LLMs
to interleave thinking and answering for multi-hop questions. We observe that
models inherently possess the ability to perform interleaved reasoning, which
can be further enhanced through RL. We introduce a simple yet effective
rule-based reward to incentivize correct intermediate steps, which guides the
policy model toward correct reasoning paths by leveraging intermediate signals
generated during interleaved reasoning. Extensive experiments conducted across
five diverse datasets and three RL algorithms (PPO, GRPO, and REINFORCE++)
demonstrate consistent improvements over traditional think-answer reasoning,
without requiring external tools. Specifically, our approach reduces TTFT by
over 80% on average and improves up to 19.3% in Pass@1 accuracy. Furthermore,
our method, trained solely on question answering and logical reasoning
datasets, exhibits strong generalization ability to complex reasoning datasets
such as MATH, GPQA, and MMLU. Additionally, we conduct in-depth analysis to
reveal several valuable insights into conditional reward modeling.