Het ontrafelen van langdurig redeneren in LLM's
Demystifying Long Chain-of-Thought Reasoning in LLMs
February 5, 2025
Auteurs: Edward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue
cs.AI
Samenvatting
Het schalen van inferentieberekeningen verbetert het redeneren in grote taalmodellen (LLM's), met lange ketens-van-gedachten (CoTs) die strategieën zoals terugspoelen en foutcorrectie mogelijk maken. Versterkend leren (RL) is naar voren gekomen als een cruciale methode voor het ontwikkelen van deze mogelijkheden, maar de voorwaarden waaronder lange CoTs ontstaan blijven onduidelijk, en RL-training vereist zorgvuldige ontwerpkeuzes. In deze studie onderzoeken we systematisch de mechanismen van lang CoT-redeneren, waarbij we de belangrijkste factoren identificeren die modellen in staat stellen om lange CoT-trajecten te genereren. Door uitgebreide supervisie fine-tuning (SFT) en RL-experimenten presenteren we vier belangrijkste bevindingen: (1) Hoewel SFT niet strikt noodzakelijk is, vereenvoudigt het de training en verbetert het de efficiëntie; (2) Redeneervermogens neigen te ontstaan met toenemende trainingsberekeningen, maar hun ontwikkeling is niet gegarandeerd, waardoor beloningsvormgeving cruciaal is voor het stabiliseren van de groei van CoT-lengte; (3) Het schalen van controleerbare beloningssignalen is cruciaal voor RL. We ontdekken dat het benutten van lawaaierige, web-geëxtraheerde oplossingen met filtermechanismen een groot potentieel laat zien, met name voor taken buiten de distributie, zoals STEM-redeneren; en (4) Kernvaardigheden zoals foutcorrectie zijn inherent aanwezig in basismodellen, maar deze vaardigheden effectief stimuleren voor complexe taken via RL vereist aanzienlijke berekeningen, en het meten van hun opkomst vereist een genuanceerde aanpak. Deze inzichten bieden praktische richtlijnen voor het optimaliseren van trainingsstrategieën om lang CoT-redeneren in LLM's te verbeteren. Onze code is beschikbaar op: https://github.com/eddycmu/demystify-long-cot.
English
Scaling inference compute enhances reasoning in large language models (LLMs),
with long chains-of-thought (CoTs) enabling strategies like backtracking and
error correction. Reinforcement learning (RL) has emerged as a crucial method
for developing these capabilities, yet the conditions under which long CoTs
emerge remain unclear, and RL training requires careful design choices. In this
study, we systematically investigate the mechanics of long CoT reasoning,
identifying the key factors that enable models to generate long CoT
trajectories. Through extensive supervised fine-tuning (SFT) and RL
experiments, we present four main findings: (1) While SFT is not strictly
necessary, it simplifies training and improves efficiency; (2) Reasoning
capabilities tend to emerge with increased training compute, but their
development is not guaranteed, making reward shaping crucial for stabilizing
CoT length growth; (3) Scaling verifiable reward signals is critical for RL. We
find that leveraging noisy, web-extracted solutions with filtering mechanisms
shows strong potential, particularly for out-of-distribution (OOD) tasks such
as STEM reasoning; and (4) Core abilities like error correction are inherently
present in base models, but incentivizing these skills effectively for complex
tasks via RL demands significant compute, and measuring their emergence
requires a nuanced approach. These insights provide practical guidance for
optimizing training strategies to enhance long CoT reasoning in LLMs. Our code
is available at: https://github.com/eddycmu/demystify-long-cot.Summary
AI-Generated Summary