ChatPaper.aiChatPaper

Naar Grote Redeneermodellen: Een Overzicht van Versterkte Redenering met Grote Taalmodellen

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models

January 16, 2025
Auteurs: Fengli Xu, Qianyue Hao, Zefang Zong, Jingwei Wang, Yunke Zhang, Jingyi Wang, Xiaochong Lan, Jiahui Gong, Tianjian Ouyang, Fanjin Meng, Chenyang Shao, Yuwei Yan, Qinglong Yang, Yiwen Song, Sijian Ren, Xinyuan Hu, Yu Li, Jie Feng, Chen Gao, Yong Li
cs.AI

Samenvatting

Taal is lange tijd beschouwd als een essentieel instrument voor menselijk redeneren. De doorbraak van Grote Taalmodellen (GTM's) heeft aanzienlijke onderzoeksinteresse aangewakkerd in het benutten van deze modellen om complexe redeneertaken aan te pakken. Onderzoekers zijn voorbij eenvoudige autoregressieve token generatie gegaan door het concept van "gedachte" te introduceren - een reeks tokens die tussenliggende stappen in het redeneerproces vertegenwoordigen. Dit innovatieve paradigma stelt GTM's in staat om complexe menselijke redeneerprocessen na te bootsen, zoals boomzoekopdrachten en reflectief denken. Onlangs is er een opkomende trend van leren redeneren waarbij versterkend leren (RL) wordt toegepast om GTM's te trainen in het beheersen van redeneerprocessen. Deze aanpak maakt het automatisch genereren van hoogwaardige redeneertrajecten mogelijk door middel van trial-and-error zoekalgoritmen, waardoor de redeneercapaciteit van GTM's aanzienlijk wordt uitgebreid door aanzienlijk meer trainingsgegevens te verstrekken. Bovendien tonen recente studies aan dat het aanmoedigen van GTM's om tijdens testtijdinference met meer tokens "te denken" de redeneernauwkeurigheid verder aanzienlijk kan verhogen. Daarom laten de schaalvergroting tijdens training en testtijd samen een nieuw onderzoekspad zien - een weg naar een Groot Redeneermodel. De introductie van OpenAI's o1-serie markeert een belangrijke mijlpaal in deze onderzoeksrichting. In deze survey presenteren we een uitgebreid overzicht van recente vooruitgang in GTM-redeneren. We beginnen met het introduceren van de fundamentele achtergrond van GTM's en verkennen vervolgens de belangrijkste technische componenten die de ontwikkeling van grote redeneermodellen stimuleren, met de nadruk op geautomatiseerde gegevensconstructie, leer-om-te-redeneren technieken en schaalvergroting tijdens testtijd. We analyseren ook populaire open-source projecten voor het bouwen van grote redeneermodellen en sluiten af met open uitdagingen en toekomstige onderzoeksrichtingen.
English
Language has long been conceived as an essential tool for human reasoning. The breakthrough of Large Language Models (LLMs) has sparked significant research interest in leveraging these models to tackle complex reasoning tasks. Researchers have moved beyond simple autoregressive token generation by introducing the concept of "thought" -- a sequence of tokens representing intermediate steps in the reasoning process. This innovative paradigm enables LLMs' to mimic complex human reasoning processes, such as tree search and reflective thinking. Recently, an emerging trend of learning to reason has applied reinforcement learning (RL) to train LLMs to master reasoning processes. This approach enables the automatic generation of high-quality reasoning trajectories through trial-and-error search algorithms, significantly expanding LLMs' reasoning capacity by providing substantially more training data. Furthermore, recent studies demonstrate that encouraging LLMs to "think" with more tokens during test-time inference can further significantly boost reasoning accuracy. Therefore, the train-time and test-time scaling combined to show a new research frontier -- a path toward Large Reasoning Model. The introduction of OpenAI's o1 series marks a significant milestone in this research direction. In this survey, we present a comprehensive review of recent progress in LLM reasoning. We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling. We also analyze popular open-source projects at building large reasoning models, and conclude with open challenges and future research directions.

Summary

AI-Generated Summary

PDF412January 17, 2025