La confiance est tout ce dont vous avez besoin : réglage fin en apprentissage par renforcement avec peu d'exemples pour les modèles de langage
Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models
June 5, 2025
Auteurs: Pengyi Li, Matvey Skripkin, Alexander Zubrey, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Résumé
Les grands modèles de langage (LLMs) excellent en raisonnement, mais le post-entraînement reste crucial pour aligner leur comportement avec les objectifs des tâches. Les méthodes existantes d'apprentissage par renforcement (RL) dépendent souvent d'annotations humaines coûteuses ou de modèles de récompense externes. Nous proposons l'Apprentissage par Renforcement via la Confiance en Soi (RLSC), qui utilise la confiance propre du modèle comme signaux de récompense, éliminant ainsi le besoin d'étiquettes, de modèles de préférence ou d'ingénierie de récompense. Appliqué à Qwen2.5-Math-7B avec seulement 16 échantillons par question et 10 ou 20 étapes d'entraînement, RLSC améliore la précision de +13,4 % sur AIME2024, +21,2 % sur MATH500, +21,7 % sur Minerva Math, +20,8 % sur Olympiadbench et +9,7 % sur AMC23. RLSC offre une méthode de post-entraînement simple et évolutive pour les modèles d'inférence, nécessitant seulement un petit nombre d'échantillons et une supervision non étiquetée.
English
Large language models (LLMs) excel at reasoning, yet post-training remains
critical for aligning their behavior with task goals. Existing reinforcement
learning (RL) methods often depend on costly human annotations or external
reward models. We propose Reinforcement Learning via Self-Confidence (RLSC),
which uses the model's own confidence as reward signals-eliminating the need
for labels, preference models, or reward engineering. Applied to
Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps,
RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on
Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a
simple, scalable post-training method for inference models, requiring only a
small number of samples and unlabelled supervision.