ChatPaper.aiChatPaper

Ragionamento Intervallato per Modelli Linguistici di Grandi Dimensioni tramite Apprendimento per Rinforzo

Interleaved Reasoning for Large Language Models via Reinforcement Learning

May 26, 2025
Autori: Roy Xie, David Qiu, Deepak Gopinath, Dong Lin, Yanchao Sun, Chong Wang, Saloni Potdar, Bhuwan Dhingra
cs.AI

Abstract

Le lunghe catene di ragionamento (CoT) migliorano significativamente le capacità di ragionamento dei grandi modelli linguistici (LLM). Tuttavia, le tracce di ragionamento estese portano a inefficienze e a un aumento del tempo per il primo token (TTFT). Proponiamo un nuovo paradigma di addestramento che utilizza l'apprendimento per rinforzo (RL) per guidare i modelli di ragionamento a intervallare pensiero e risposta per domande multi-hop. Osserviamo che i modelli possiedono intrinsecamente la capacità di eseguire ragionamenti intervallati, che può essere ulteriormente potenziata attraverso l'RL. Introduciamo una ricompensa basata su regole semplice ma efficace per incentivare i passaggi intermedi corretti, che guida il modello di policy verso percorsi di ragionamento corretti sfruttando i segnali intermedi generati durante il ragionamento intervallato. Esperimenti estesi condotti su cinque dataset diversi e tre algoritmi di RL (PPO, GRPO e REINFORCE++) dimostrano miglioramenti consistenti rispetto al tradizionale ragionamento pensa-risposta, senza richiedere strumenti esterni. In particolare, il nostro approccio riduce il TTFT in media di oltre l'80% e migliora fino al 19,3% nell'accuratezza Pass@1. Inoltre, il nostro metodo, addestrato esclusivamente su dataset di risposta alle domande e ragionamento logico, mostra una forte capacità di generalizzazione su dataset di ragionamento complesso come MATH, GPQA e MMLU. In aggiunta, conduciamo un'analisi approfondita per rivelare diverse intuizioni preziose sulla modellazione condizionale delle ricompense.
English
Long chain-of-thought (CoT) significantly enhances large language models' (LLM) reasoning capabilities. However, the extensive reasoning traces lead to inefficiencies and an increased time-to-first-token (TTFT). We propose a novel training paradigm that uses reinforcement learning (RL) to guide reasoning LLMs to interleave thinking and answering for multi-hop questions. We observe that models inherently possess the ability to perform interleaved reasoning, which can be further enhanced through RL. We introduce a simple yet effective rule-based reward to incentivize correct intermediate steps, which guides the policy model toward correct reasoning paths by leveraging intermediate signals generated during interleaved reasoning. Extensive experiments conducted across five diverse datasets and three RL algorithms (PPO, GRPO, and REINFORCE++) demonstrate consistent improvements over traditional think-answer reasoning, without requiring external tools. Specifically, our approach reduces TTFT by over 80% on average and improves up to 19.3% in Pass@1 accuracy. Furthermore, our method, trained solely on question answering and logical reasoning datasets, exhibits strong generalization ability to complex reasoning datasets such as MATH, GPQA, and MMLU. Additionally, we conduct in-depth analysis to reveal several valuable insights into conditional reward modeling.
PDF133May 27, 2025