Уверенность — это всё, что нужно: тонкая настройка языковых моделей с использованием обучения с подкреплением на малых данных
Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models
June 5, 2025
Авторы: Pengyi Li, Matvey Skripkin, Alexander Zubrey, Andrey Kuznetsov, Ivan Oseledets
cs.AI
Аннотация
Крупные языковые модели (LLMs) демонстрируют высокие способности к рассуждению, однако посттренинг остается критически важным для согласования их поведения с целями задачи. Существующие методы обучения с подкреплением (RL) часто зависят от дорогостоящих аннотаций, созданных человеком, или внешних моделей вознаграждения. Мы предлагаем метод обучения с подкреплением через уверенность модели (RLSC), который использует собственную уверенность модели в качестве сигналов вознаграждения, устраняя необходимость в метках, моделях предпочтений или инженерии вознаграждений. Примененный к модели Qwen2.5-Math-7B с использованием всего 16 примеров на вопрос и 10 или 20 шагов обучения, RLSC повышает точность на +13,4% на AIME2024, +21,2% на MATH500, +21,7% на Minerva Math, +20,8% на Olympiadbench и +9,7% на AMC23. RLSC предоставляет простой и масштабируемый метод посттренинга для моделей вывода, требующий лишь небольшого количества примеров и неразмеченного контроля.
English
Large language models (LLMs) excel at reasoning, yet post-training remains
critical for aligning their behavior with task goals. Existing reinforcement
learning (RL) methods often depend on costly human annotations or external
reward models. We propose Reinforcement Learning via Self-Confidence (RLSC),
which uses the model's own confidence as reward signals-eliminating the need
for labels, preference models, or reward engineering. Applied to
Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps,
RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on
Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a
simple, scalable post-training method for inference models, requiring only a
small number of samples and unlabelled supervision.