ChatPaper.aiChatPaper

La confianza es todo lo que necesitas: ajuste fino de modelos de lenguaje con aprendizaje por refuerzo en pocos pasos.

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models

June 5, 2025
Autores: Pengyi Li, Matvey Skripkin, Alexander Zubrey, Andrey Kuznetsov, Ivan Oseledets
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) destacan en razonamiento, aunque el entrenamiento posterior sigue siendo crucial para alinear su comportamiento con los objetivos de la tarea. Los métodos existentes de aprendizaje por refuerzo (RL) suelen depender de costosas anotaciones humanas o de modelos externos de recompensa. Proponemos el Aprendizaje por Refuerzo mediante Autoconfianza (RLSC), que utiliza la propia confianza del modelo como señales de recompensa, eliminando la necesidad de etiquetas, modelos de preferencia o ingeniería de recompensas. Aplicado a Qwen2.5-Math-7B con solo 16 muestras por pregunta y 10 o 20 pasos de entrenamiento, RLSC mejora la precisión en un +13.4% en AIME2024, +21.2% en MATH500, +21.7% en Minerva Math, +20.8% en Olympiadbench y +9.7% en AMC23. RLSC ofrece un método simple y escalable de entrenamiento posterior para modelos de inferencia, requiriendo solo un pequeño número de muestras y supervisión no etiquetada.
English
Large language models (LLMs) excel at reasoning, yet post-training remains critical for aligning their behavior with task goals. Existing reinforcement learning (RL) methods often depend on costly human annotations or external reward models. We propose Reinforcement Learning via Self-Confidence (RLSC), which uses the model's own confidence as reward signals-eliminating the need for labels, preference models, or reward engineering. Applied to Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps, RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a simple, scalable post-training method for inference models, requiring only a small number of samples and unlabelled supervision.
PDF10419June 12, 2025