Ponderación Adaptativa Basada en Entropía para el Autoaprendizaje
Entropy-Based Adaptive Weighting for Self-Training
March 31, 2025
Autores: Xiaoxuan Wang, Yihe Deng, Mingyu Derek Ma, Wei Wang
cs.AI
Resumen
Las capacidades de resolución de problemas matemáticos de los modelos de lenguaje de gran escala se han convertido en un punto central de investigación, con un creciente interés en aprovechar las rutas de razonamiento autogeneradas como una forma prometedora de refinar y mejorar estos modelos. Estas rutas capturan procesos lógicos paso a paso mientras requieren únicamente la respuesta correcta para la supervisión. El método de autoentrenamiento ha demostrado ser efectivo en tareas de razonamiento, eliminando la necesidad de modelos externos y anotaciones manuales. Sin embargo, optimizar el uso de datos autogenerados para el entrenamiento del modelo sigue siendo un desafío abierto. En este trabajo, proponemos el Ponderación Adaptativa Basada en Entropía para el Autoentrenamiento (EAST, por sus siglas en inglés), una estrategia de ponderación adaptativa diseñada para priorizar datos inciertos durante el autoentrenamiento. Específicamente, EAST emplea una función de mapeo con un parámetro ajustable que controla la nitidez de la ponderación, asignando pesos más altos a los datos donde el modelo exhibe mayor incertidumbre. Este enfoque guía al modelo a centrarse en ejemplos más informativos y desafiantes, mejorando así su capacidad de razonamiento. Evaluamos nuestro enfoque en los benchmarks GSM8K y MATH. Los resultados empíricos muestran que, mientras el método básico no muestra prácticamente ninguna mejora (0%) en MATH, EAST logra una ganancia de aproximadamente un 1% sobre el modelo base. En GSM8K, EAST alcanza un aumento adicional de rendimiento del 1-2% en comparación con el método básico.
English
The mathematical problem-solving capabilities of large language models have
become a focal point of research, with growing interests in leveraging
self-generated reasoning paths as a promising way to refine and enhance these
models. These paths capture step-by-step logical processes while requiring only
the correct answer for supervision. The self-training method has been shown to
be effective in reasoning tasks while eliminating the need for external models
and manual annotations. However, optimizing the use of self-generated data for
model training remains an open challenge. In this work, we propose
Entropy-Based Adaptive Weighting for Self-Training (EAST), an adaptive
weighting strategy designed to prioritize uncertain data during self-training.
Specifically, EAST employs a mapping function with a tunable parameter that
controls the sharpness of the weighting, assigning higher weights to data where
the model exhibits greater uncertainty. This approach guides the model to focus
on more informative and challenging examples, thereby enhancing its reasoning
ability. We evaluate our approach on GSM8K and MATH benchmarks. Empirical
results show that, while the vanilla method yields virtually no improvement
(0%) on MATH, EAST achieves around a 1% gain over backbone model. On GSM8K,
EAST attains a further 1-2% performance boost compared to the vanilla method.Summary
AI-Generated Summary