ChatPaper.aiChatPaper

Reinforcement Learning voor Redeneren in Kleine LLM's: Wat Werkt en Wat Niet

Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

March 20, 2025
Auteurs: Quy-Anh Dang, Chris Ngo
cs.AI

Samenvatting

Het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs) is doorgaans afhankelijk van enorme rekenkracht en uitgebreide datasets, wat de toegankelijkheid beperkt in omgevingen met beperkte middelen. Onze studie onderzoekt het potentieel van reinforcement learning (RL) om het redeneren in kleine LLMs te verbeteren, met focus op een model van 1,5 miljard parameters, DeepSeek-R1-Distill-Qwen-1.5B, onder strikte beperkingen: training op 4 NVIDIA A40 GPU's (elk 48 GB VRAM) binnen 24 uur. Door het Group Relative Policy Optimization (GRPO)-algoritme aan te passen en een compacte, hoogwaardige dataset voor wiskundig redeneren samen te stellen, hebben we drie experimenten uitgevoerd om het modelgedrag en de prestaties te onderzoeken. Onze resultaten tonen snelle verbeteringen in redeneren - bijvoorbeeld AMC23-nauwkeurigheid stijgend van 63% naar 80% en AIME24 bereikend 46,7%, wat o1-preview overtreft - met slechts 7.000 voorbeelden en een trainingskost van $42, vergeleken met duizenden dollars voor basismodellen. Er deden zich echter uitdagingen voor, zoals instabiliteit bij optimalisatie en lengtebeperkingen bij langdurige training. Deze bevindingen benadrukken de effectiviteit van RL-gebaseerde fine-tuning voor kleine LLMs, wat een kosteneffectief alternatief biedt voor grootschalige benaderingen. We maken onze code en datasets beschikbaar als open-source bronnen, wat inzicht biedt in afwegingen en een basis legt voor schaalbare, redeneervaardige LLMs in omgevingen met beperkte middelen. Alles is beschikbaar op https://github.com/knoveleng/open-rs.
English
Enhancing the reasoning capabilities of large language models (LLMs) typically relies on massive computational resources and extensive datasets, limiting accessibility for resource-constrained settings. Our study investigates the potential of reinforcement learning (RL) to improve reasoning in small LLMs, focusing on a 1.5-billion-parameter model, DeepSeek-R1-Distill-Qwen-1.5B, under strict constraints: training on 4 NVIDIA A40 GPUs (48 GB VRAM each) within 24 hours. Adapting the Group Relative Policy Optimization (GRPO) algorithm and curating a compact, high-quality mathematical reasoning dataset, we conducted three experiments to explore model behavior and performance. Our results demonstrate rapid reasoning gains - e.g., AMC23 accuracy rising from 63% to 80% and AIME24 reaching 46.7%, surpassing o1-preview - using only 7,000 samples and a $42 training cost, compared to thousands of dollars for baseline models. However, challenges such as optimization instability and length constraints emerged with prolonged training. These findings highlight the efficacy of RL-based fine-tuning for small LLMs, offering a cost-effective alternative to large-scale approaches. We release our code and datasets as open-source resources, providing insights into trade-offs and laying a foundation for scalable, reasoning-capable LLMs in resource-limited environments. All are available at https://github.com/knoveleng/open-rs.

Summary

AI-Generated Summary

PDF4823March 21, 2025