Ponderação Adaptativa Baseada em Entropia para Auto-Treinamento

Resumo

As capacidades de resolução de problemas matemáticos dos grandes modelos de linguagem têm se tornado um foco central de pesquisa, com um interesse crescente em aproveitar caminhos de raciocínio autogerados como uma abordagem promissora para refinar e aprimorar esses modelos. Esses caminhos capturam processos lógicos passo a passo, exigindo apenas a resposta correta para supervisão. O método de autotreinamento tem se mostrado eficaz em tarefas de raciocínio, eliminando a necessidade de modelos externos e anotações manuais. No entanto, otimizar o uso de dados autogerados para o treinamento de modelos continua sendo um desafio em aberto. Neste trabalho, propomos o Entropy-Based Adaptive Weighting for Self-Training (EAST), uma estratégia de ponderação adaptativa projetada para priorizar dados incertos durante o autotreinamento. Especificamente, o EAST emprega uma função de mapeamento com um parâmetro ajustável que controla a nitidez da ponderação, atribuindo pesos maiores a dados onde o modelo exibe maior incerteza. Essa abordagem orienta o modelo a se concentrar em exemplos mais informativos e desafiadores, aprimorando assim sua capacidade de raciocínio. Avaliamos nossa abordagem nos benchmarks GSM8K e MATH. Os resultados empíricos mostram que, enquanto o método básico não apresenta praticamente nenhuma melhoria (0%) no MATH, o EAST alcança um ganho de aproximadamente 1% em relação ao modelo base. No GSM8K, o EAST obtém um aumento adicional de 1-2% no desempenho em comparação com o método básico.

English

The mathematical problem-solving capabilities of large language models have become a focal point of research, with growing interests in leveraging self-generated reasoning paths as a promising way to refine and enhance these models. These paths capture step-by-step logical processes while requiring only the correct answer for supervision. The self-training method has been shown to be effective in reasoning tasks while eliminating the need for external models and manual annotations. However, optimizing the use of self-generated data for model training remains an open challenge. In this work, we propose Entropy-Based Adaptive Weighting for Self-Training (EAST), an adaptive weighting strategy designed to prioritize uncertain data during self-training. Specifically, EAST employs a mapping function with a tunable parameter that controls the sharpness of the weighting, assigning higher weights to data where the model exhibits greater uncertainty. This approach guides the model to focus on more informative and challenging examples, thereby enhancing its reasoning ability. We evaluate our approach on GSM8K and MATH benchmarks. Empirical results show that, while the vanilla method yields virtually no improvement (0%) on MATH, EAST achieves around a 1% gain over backbone model. On GSM8K, EAST attains a further 1-2% performance boost compared to the vanilla method.