Raisonnement entrelacé pour les grands modèles de langage via l'apprentissage par renforcement
Interleaved Reasoning for Large Language Models via Reinforcement Learning
May 26, 2025
Auteurs: Roy Xie, David Qiu, Deepak Gopinath, Dong Lin, Yanchao Sun, Chong Wang, Saloni Potdar, Bhuwan Dhingra
cs.AI
Résumé
La chaîne de raisonnement étendue (CoT) améliore significativement les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les traces de raisonnement étendues entraînent des inefficacités et un temps accru jusqu'au premier jeton (TTFT). Nous proposons un nouveau paradigme d'entraînement utilisant l'apprentissage par renforcement (RL) pour guider les LLM de raisonnement à intercaler pensée et réponse pour des questions à sauts multiples. Nous observons que les modèles possèdent intrinsèquement la capacité de réaliser un raisonnement intercalé, qui peut être encore amélioré par le RL. Nous introduisons une récompense basée sur des règles, simple mais efficace, pour inciter les étapes intermédiaires correctes, guidant ainsi le modèle de politique vers des chemins de raisonnement corrects en exploitant les signaux intermédiaires générés lors du raisonnement intercalé. Des expériences approfondies menées sur cinq ensembles de données diversifiés et trois algorithmes de RL (PPO, GRPO et REINFORCE++) démontrent des améliorations constantes par rapport au raisonnement traditionnel de type "penser-répondre", sans nécessiter d'outils externes. Plus précisément, notre approche réduit le TTFT de plus de 80 % en moyenne et améliore jusqu'à 19,3 % la précision Pass@1. De plus, notre méthode, entraînée uniquement sur des ensembles de données de questions-réponses et de raisonnement logique, montre une forte capacité de généralisation à des ensembles de données de raisonnement complexes tels que MATH, GPQA et MMLU. Enfin, nous menons une analyse approfondie pour révéler plusieurs insights précieux sur la modélisation conditionnelle des récompenses.
English
Long chain-of-thought (CoT) significantly enhances large language models'
(LLM) reasoning capabilities. However, the extensive reasoning traces lead to
inefficiencies and an increased time-to-first-token (TTFT). We propose a novel
training paradigm that uses reinforcement learning (RL) to guide reasoning LLMs
to interleave thinking and answering for multi-hop questions. We observe that
models inherently possess the ability to perform interleaved reasoning, which
can be further enhanced through RL. We introduce a simple yet effective
rule-based reward to incentivize correct intermediate steps, which guides the
policy model toward correct reasoning paths by leveraging intermediate signals
generated during interleaved reasoning. Extensive experiments conducted across
five diverse datasets and three RL algorithms (PPO, GRPO, and REINFORCE++)
demonstrate consistent improvements over traditional think-answer reasoning,
without requiring external tools. Specifically, our approach reduces TTFT by
over 80% on average and improves up to 19.3% in Pass@1 accuracy. Furthermore,
our method, trained solely on question answering and logical reasoning
datasets, exhibits strong generalization ability to complex reasoning datasets
such as MATH, GPQA, and MMLU. Additionally, we conduct in-depth analysis to
reveal several valuable insights into conditional reward modeling.Summary
AI-Generated Summary