Ponderação Adaptativa Baseada em Entropia para Auto-Treinamento
Entropy-Based Adaptive Weighting for Self-Training
March 31, 2025
Autores: Xiaoxuan Wang, Yihe Deng, Mingyu Derek Ma, Wei Wang
cs.AI
Resumo
As capacidades de resolução de problemas matemáticos dos grandes modelos de linguagem têm se tornado um foco central de pesquisa, com um interesse crescente em aproveitar caminhos de raciocínio autogerados como uma abordagem promissora para refinar e aprimorar esses modelos. Esses caminhos capturam processos lógicos passo a passo, exigindo apenas a resposta correta para supervisão. O método de autotreinamento tem se mostrado eficaz em tarefas de raciocínio, eliminando a necessidade de modelos externos e anotações manuais. No entanto, otimizar o uso de dados autogerados para o treinamento de modelos continua sendo um desafio em aberto. Neste trabalho, propomos o Entropy-Based Adaptive Weighting for Self-Training (EAST), uma estratégia de ponderação adaptativa projetada para priorizar dados incertos durante o autotreinamento. Especificamente, o EAST emprega uma função de mapeamento com um parâmetro ajustável que controla a nitidez da ponderação, atribuindo pesos maiores a dados onde o modelo exibe maior incerteza. Essa abordagem orienta o modelo a se concentrar em exemplos mais informativos e desafiadores, aprimorando assim sua capacidade de raciocínio. Avaliamos nossa abordagem nos benchmarks GSM8K e MATH. Os resultados empíricos mostram que, enquanto o método básico não apresenta praticamente nenhuma melhoria (0%) no MATH, o EAST alcança um ganho de aproximadamente 1% em relação ao modelo base. No GSM8K, o EAST obtém um aumento adicional de 1-2% no desempenho em comparação com o método básico.
English
The mathematical problem-solving capabilities of large language models have
become a focal point of research, with growing interests in leveraging
self-generated reasoning paths as a promising way to refine and enhance these
models. These paths capture step-by-step logical processes while requiring only
the correct answer for supervision. The self-training method has been shown to
be effective in reasoning tasks while eliminating the need for external models
and manual annotations. However, optimizing the use of self-generated data for
model training remains an open challenge. In this work, we propose
Entropy-Based Adaptive Weighting for Self-Training (EAST), an adaptive
weighting strategy designed to prioritize uncertain data during self-training.
Specifically, EAST employs a mapping function with a tunable parameter that
controls the sharpness of the weighting, assigning higher weights to data where
the model exhibits greater uncertainty. This approach guides the model to focus
on more informative and challenging examples, thereby enhancing its reasoning
ability. We evaluate our approach on GSM8K and MATH benchmarks. Empirical
results show that, while the vanilla method yields virtually no improvement
(0%) on MATH, EAST achieves around a 1% gain over backbone model. On GSM8K,
EAST attains a further 1-2% performance boost compared to the vanilla method.