ChatPaper.aiChatPaper

Vertrauen ist alles, was du brauchst: Few-Shot RL-Feinabstimmung von Sprachmodellen

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models

June 5, 2025
Autoren: Pengyi Li, Matvey Skripkin, Alexander Zubrey, Andrey Kuznetsov, Ivan Oseledets
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) zeichnen sich durch ihre Fähigkeit zum logischen Denken aus, doch das Post-Training bleibt entscheidend, um ihr Verhalten an die Aufgabenziele anzupassen. Bestehende Methoden des Reinforcement Learning (RL) sind oft auf kostspielige menschliche Annotationen oder externe Belohnungsmodelle angewiesen. Wir schlagen Reinforcement Learning via Self-Confidence (RLSC) vor, das das eigene Vertrauen des Modells als Belohnungssignal nutzt – wodurch die Notwendigkeit von Labels, Präferenzmodellen oder Belohnungsentwurf entfällt. Angewendet auf Qwen2.5-Math-7B mit nur 16 Beispielen pro Frage und 10 oder 20 Trainingsschritten, verbessert RLSC die Genauigkeit um +13,4 % auf AIME2024, +21,2 % auf MATH500, +21,7 % auf Minerva Math, +20,8 % auf Olympiadbench und +9,7 % auf AMC23. RLSC bietet eine einfache, skalierbare Post-Training-Methode für Inferenzmodelle, die nur eine geringe Anzahl von Beispielen und unmarkierte Überwachung erfordert.
English
Large language models (LLMs) excel at reasoning, yet post-training remains critical for aligning their behavior with task goals. Existing reinforcement learning (RL) methods often depend on costly human annotations or external reward models. We propose Reinforcement Learning via Self-Confidence (RLSC), which uses the model's own confidence as reward signals-eliminating the need for labels, preference models, or reward engineering. Applied to Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps, RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a simple, scalable post-training method for inference models, requiring only a small number of samples and unlabelled supervision.
PDF10319June 12, 2025