ChatPaper.aiChatPaper

Confiança É Tudo o Que Você Precisa: Ajuste Fino de Modelos de Linguagem com Aprendizado por Reforço em Poucas Amostras

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models

June 5, 2025
Autores: Pengyi Li, Matvey Skripkin, Alexander Zubrey, Andrey Kuznetsov, Ivan Oseledets
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) se destacam em raciocínio, mas o pós-treinamento continua sendo crucial para alinhar seu comportamento com os objetivos da tarefa. Os métodos existentes de aprendizado por reforço (RL) frequentemente dependem de anotações humanas custosas ou modelos externos de recompensa. Propomos o Aprendizado por Reforço via Autoconfiança (RLSC), que utiliza a própria confiança do modelo como sinais de recompensa, eliminando a necessidade de rótulos, modelos de preferência ou engenharia de recompensa. Aplicado ao Qwen2.5-Math-7B com apenas 16 amostras por questão e 10 ou 20 etapas de treinamento, o RLSC melhora a precisão em +13,4% no AIME2024, +21,2% no MATH500, +21,7% no Minerva Math, +20,8% no Olympiadbench e +9,7% no AMC23. O RLSC oferece um método simples e escalável de pós-treinamento para modelos de inferência, exigindo apenas um pequeno número de amostras e supervisão não rotulada.
English
Large language models (LLMs) excel at reasoning, yet post-training remains critical for aligning their behavior with task goals. Existing reinforcement learning (RL) methods often depend on costly human annotations or external reward models. We propose Reinforcement Learning via Self-Confidence (RLSC), which uses the model's own confidence as reward signals-eliminating the need for labels, preference models, or reward engineering. Applied to Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps, RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a simple, scalable post-training method for inference models, requiring only a small number of samples and unlabelled supervision.
PDF10719June 12, 2025