La confiance est tout ce dont vous avez besoin : réglage fin en apprentissage par renforcement avec peu d'exemples pour les modèles de langage

papers.abstract

Les grands modèles de langage (LLMs) excellent en raisonnement, mais le post-entraînement reste crucial pour aligner leur comportement avec les objectifs des tâches. Les méthodes existantes d'apprentissage par renforcement (RL) dépendent souvent d'annotations humaines coûteuses ou de modèles de récompense externes. Nous proposons l'Apprentissage par Renforcement via la Confiance en Soi (RLSC), qui utilise la confiance propre du modèle comme signaux de récompense, éliminant ainsi le besoin d'étiquettes, de modèles de préférence ou d'ingénierie de récompense. Appliqué à Qwen2.5-Math-7B avec seulement 16 échantillons par question et 10 ou 20 étapes d'entraînement, RLSC améliore la précision de +13,4 % sur AIME2024, +21,2 % sur MATH500, +21,7 % sur Minerva Math, +20,8 % sur Olympiadbench et +9,7 % sur AMC23. RLSC offre une méthode de post-entraînement simple et évolutive pour les modèles d'inférence, nécessitant seulement un petit nombre d'échantillons et une supervision non étiquetée.

English

Large language models (LLMs) excel at reasoning, yet post-training remains critical for aligning their behavior with task goals. Existing reinforcement learning (RL) methods often depend on costly human annotations or external reward models. We propose Reinforcement Learning via Self-Confidence (RLSC), which uses the model's own confidence as reward signals-eliminating the need for labels, preference models, or reward engineering. Applied to Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps, RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a simple, scalable post-training method for inference models, requiring only a small number of samples and unlabelled supervision.

La confiance est tout ce dont vous avez besoin : réglage fin en apprentissage par renforcement avec peu d'exemples pour les modèles de langage

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models

papers.abstract

Support