Vers des grands modèles de raisonnement : Une enquête sur le raisonnement renforcé avec de grands modèles de langage.
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models
January 16, 2025
Auteurs: Fengli Xu, Qianyue Hao, Zefang Zong, Jingwei Wang, Yunke Zhang, Jingyi Wang, Xiaochong Lan, Jiahui Gong, Tianjian Ouyang, Fanjin Meng, Chenyang Shao, Yuwei Yan, Qinglong Yang, Yiwen Song, Sijian Ren, Xinyuan Hu, Yu Li, Jie Feng, Chen Gao, Yong Li
cs.AI
Résumé
Le langage a longtemps été conçu comme un outil essentiel pour le raisonnement humain. La percée des Grands Modèles de Langage (GML) a suscité un intérêt significatif en recherche pour exploiter ces modèles afin de relever des tâches de raisonnement complexes. Les chercheurs ont dépassé la simple génération autorégressive de jetons en introduisant le concept de "pensée" - une séquence de jetons représentant des étapes intermédiaires dans le processus de raisonnement. Ce paradigme innovant permet aux GML de reproduire des processus de raisonnement humain complexes, tels que la recherche arborescente et la réflexion. Récemment, une tendance émergente d'apprentissage du raisonnement a appliqué l'apprentissage par renforcement (AR) pour entraîner les GML à maîtriser les processus de raisonnement. Cette approche permet la génération automatique de trajectoires de raisonnement de haute qualité grâce à des algorithmes de recherche par essais et erreurs, étendant considérablement la capacité de raisonnement des GML en fournissant beaucoup plus de données d'entraînement. De plus, des études récentes démontrent qu'encourager les GML à "penser" avec plus de jetons pendant l'inférence au moment du test peut encore améliorer significativement la précision du raisonnement. Ainsi, la mise à l'échelle à l'entraînement et au test montre une nouvelle frontière de recherche - un chemin vers un Grand Modèle de Raisonnement. L'introduction de la série o1 d'OpenAI marque une étape importante dans cette direction de recherche. Dans cette étude, nous présentons une revue complète des progrès récents dans le raisonnement des GML. Nous commençons par présenter le contexte fondamental des GML, puis explorons les composants techniques clés qui stimulent le développement de grands modèles de raisonnement, en mettant l'accent sur la construction automatique de données, les techniques d'apprentissage du raisonnement et la mise à l'échelle au moment du test. Nous analysons également des projets open source populaires pour la construction de grands modèles de raisonnement, et concluons par des défis ouverts et des orientations pour les futures recherches.
English
Language has long been conceived as an essential tool for human reasoning.
The breakthrough of Large Language Models (LLMs) has sparked significant
research interest in leveraging these models to tackle complex reasoning tasks.
Researchers have moved beyond simple autoregressive token generation by
introducing the concept of "thought" -- a sequence of tokens representing
intermediate steps in the reasoning process. This innovative paradigm enables
LLMs' to mimic complex human reasoning processes, such as tree search and
reflective thinking. Recently, an emerging trend of learning to reason has
applied reinforcement learning (RL) to train LLMs to master reasoning
processes. This approach enables the automatic generation of high-quality
reasoning trajectories through trial-and-error search algorithms, significantly
expanding LLMs' reasoning capacity by providing substantially more training
data. Furthermore, recent studies demonstrate that encouraging LLMs to "think"
with more tokens during test-time inference can further significantly boost
reasoning accuracy. Therefore, the train-time and test-time scaling combined to
show a new research frontier -- a path toward Large Reasoning Model. The
introduction of OpenAI's o1 series marks a significant milestone in this
research direction. In this survey, we present a comprehensive review of recent
progress in LLM reasoning. We begin by introducing the foundational background
of LLMs and then explore the key technical components driving the development
of large reasoning models, with a focus on automated data construction,
learning-to-reason techniques, and test-time scaling. We also analyze popular
open-source projects at building large reasoning models, and conclude with open
challenges and future research directions.Summary
AI-Generated Summary