ChatPaper.aiChatPaper

Interleaved Redeneren voor Grote Taalmodellen via Reinforcement Learning

Interleaved Reasoning for Large Language Models via Reinforcement Learning

May 26, 2025
Auteurs: Roy Xie, David Qiu, Deepak Gopinath, Dong Lin, Yanchao Sun, Chong Wang, Saloni Potdar, Bhuwan Dhingra
cs.AI

Samenvatting

Lange ketens van redenering (Chain-of-Thought, CoT) verbeteren de redeneervaardigheden van grote taalmodellen (LLM) aanzienlijk. De uitgebreide redeneersporen leiden echter tot inefficiënties en een verhoogde tijd-tot-eerste-token (TTFT). Wij stellen een nieuw trainingsparadigma voor dat gebruikmaakt van reinforcement learning (RL) om redenerende LLM's te begeleiden bij het afwisselen van denken en antwoorden voor meerstapsvragen. We observeren dat modellen van nature de capaciteit hebben om afwisselend te redeneren, wat verder kan worden verbeterd door RL. We introduceren een eenvoudige maar effectieve op regels gebaseerde beloning om correcte tussenstappen te stimuleren, wat het beleidsmodel naar correcte redeneerpaden leidt door gebruik te maken van tussensignalen die worden gegenereerd tijdens afwisselend redeneren. Uitgebreide experimenten uitgevoerd op vijf diverse datasets en drie RL-algoritmen (PPO, GRPO en REINFORCE++) laten consistente verbeteringen zien ten opzichte van traditioneel denken-antwoorden-redeneren, zonder dat externe tools nodig zijn. Specifiek reduceert onze aanpak de TTFT met gemiddeld meer dan 80% en verbetert de Pass@1-nauwkeurigheid met tot 19,3%. Bovendien toont onze methode, die uitsluitend is getraind op vraag-antwoord- en logische redeneerdatasets, een sterke generalisatiecapaciteit naar complexe redeneerdatasets zoals MATH, GPQA en MMLU. Daarnaast voeren we een diepgaande analyse uit die verschillende waardevolle inzichten onthult over conditionele beloningsmodellering.
English
Long chain-of-thought (CoT) significantly enhances large language models' (LLM) reasoning capabilities. However, the extensive reasoning traces lead to inefficiencies and an increased time-to-first-token (TTFT). We propose a novel training paradigm that uses reinforcement learning (RL) to guide reasoning LLMs to interleave thinking and answering for multi-hop questions. We observe that models inherently possess the ability to perform interleaved reasoning, which can be further enhanced through RL. We introduce a simple yet effective rule-based reward to incentivize correct intermediate steps, which guides the policy model toward correct reasoning paths by leveraging intermediate signals generated during interleaved reasoning. Extensive experiments conducted across five diverse datasets and three RL algorithms (PPO, GRPO, and REINFORCE++) demonstrate consistent improvements over traditional think-answer reasoning, without requiring external tools. Specifically, our approach reduces TTFT by over 80% on average and improves up to 19.3% in Pass@1 accuracy. Furthermore, our method, trained solely on question answering and logical reasoning datasets, exhibits strong generalization ability to complex reasoning datasets such as MATH, GPQA, and MMLU. Additionally, we conduct in-depth analysis to reveal several valuable insights into conditional reward modeling.
PDF144May 27, 2025