La Fiducia è Tutto Ciò di Cui Hai Bisogno: Fine-Tuning RL con Pochi Esempi per Modelli Linguistici
Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models
June 5, 2025
Autori: Pengyi Li, Matvey Skripkin, Alexander Zubrey, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Abstract
I grandi modelli linguistici (LLM) eccellono nel ragionamento, ma il post-addestramento rimane fondamentale per allineare il loro comportamento agli obiettivi del compito. I metodi esistenti di apprendimento per rinforzo (RL) spesso dipendono da costose annotazioni umane o da modelli esterni di ricompensa. Proponiamo l'Apprendimento per Rinforzo tramite Autoconfidenza (RLSC), che utilizza la fiducia del modello stesso come segnali di ricompensa, eliminando la necessità di etichette, modelli di preferenza o ingegnerizzazione delle ricompense. Applicato a Qwen2.5-Math-7B con solo 16 campioni per domanda e 10 o 20 passi di addestramento, RLSC migliora l'accuratezza del +13,4% su AIME2024, del +21,2% su MATH500, del +21,7% su Minerva Math, del +20,8% su Olympiadbench e del +9,7% su AMC23. RLSC fornisce un metodo semplice e scalabile per il post-addestramento di modelli di inferenza, richiedendo solo un piccolo numero di campioni e supervisione non etichettata.
English
Large language models (LLMs) excel at reasoning, yet post-training remains
critical for aligning their behavior with task goals. Existing reinforcement
learning (RL) methods often depend on costly human annotations or external
reward models. We propose Reinforcement Learning via Self-Confidence (RLSC),
which uses the model's own confidence as reward signals-eliminating the need
for labels, preference models, or reward engineering. Applied to
Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps,
RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on
Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a
simple, scalable post-training method for inference models, requiring only a
small number of samples and unlabelled supervision.