Vertrouwen Is Alles Wat Je Nodig Hebt: Few-Shot RL Fine-Tuning van Taalmodellen
Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models
June 5, 2025
Auteurs: Pengyi Li, Matvey Skripkin, Alexander Zubrey, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Samenvatting
Grote taalmodellen (LLMs) blinken uit in redeneren, maar post-training blijft cruciaal om hun gedrag af te stemmen op taakdoelen. Bestaande methoden voor reinforcement learning (RL) zijn vaak afhankelijk van kostbare menselijke annotaties of externe beloningsmodellen. Wij stellen Reinforcement Learning via Zelfvertrouwen (RLSC) voor, dat het eigen vertrouwen van het model gebruikt als beloningssignalen, waardoor labels, voorkeursmodellen of beloningsengineering overbodig worden. Toegepast op Qwen2.5-Math-7B met slechts 16 samples per vraag en 10 of 20 trainingsstappen, verbetert RLSC de nauwkeurigheid met +13,4% op AIME2024, +21,2% op MATH500, +21,7% op Minerva Math, +20,8% op Olympiadbench en +9,7% op AMC23. RLSC biedt een eenvoudige, schaalbare post-trainingsmethode voor inferentiemodellen, waarvoor slechts een klein aantal samples en ongelabelde supervisie nodig is.
English
Large language models (LLMs) excel at reasoning, yet post-training remains
critical for aligning their behavior with task goals. Existing reinforcement
learning (RL) methods often depend on costly human annotations or external
reward models. We propose Reinforcement Learning via Self-Confidence (RLSC),
which uses the model's own confidence as reward signals-eliminating the need
for labels, preference models, or reward engineering. Applied to
Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps,
RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on
Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a
simple, scalable post-training method for inference models, requiring only a
small number of samples and unlabelled supervision.