Mitigação do Viés de Comprimento de Rótulo em Modelos de Linguagem de Grande Escala

Resumo

Os modelos de linguagem de grande escala (LLMs) são aprendizes poderosos em contexto zero e poucos exemplos. No entanto, ao prever sobre um conjunto de opções candidatas, os LLMs sofrem com vieses de rótulo, e os métodos de calibração existentes ignoram os vieses decorrentes de rótulos de classe com múltiplos tokens. Abordamos um problema que chamamos de viés de comprimento do rótulo, onde rótulos de diferentes comprimentos são tratados de forma inconsistente, mesmo após a normalização padrão de comprimento. Para mitigá-lo, propomos a calibração contextual normalizada (NCC), um método eficaz que normaliza e calibra as previsões em nível de rótulo completo. A NCC alcança melhorias estatisticamente significativas em relação às abordagens anteriores em vários conjuntos de dados e modelos, com ganhos de até 10% em F1. Além disso, a NCC estende a mitigação de viés para tarefas mais amplas, como a resposta a perguntas de múltipla escolha. Nossa análise mostra que, quando combinada com o aprendizado em contexto, a NCC é menos sensível à seleção de exemplos poucos exemplos, requer menos exemplos para um desempenho competitivo e produz estimativas de confiança mais confiáveis. Essas descobertas destacam a importância de mitigar vieses de rótulo completo para melhorar o desempenho e a robustez dos métodos baseados em LLM, particularmente em aplicações do mundo real onde os rótulos de classe naturalmente consistem em múltiplos tokens.

English

Large language models (LLMs) are powerful zero- and few-shot learners. However, when predicting over a set of candidate options, LLMs suffer from label biases, and existing calibration methods overlook biases arising from multi-token class labels. We tackle an issue we call label length bias, where labels of different lengths are treated inconsistently, even after standard length normalization. To mitigate it, we propose normalized contextual calibration (NCC), an effective method that normalizes and calibrates predictions at the full-label level. NCC achieves statistically significant improvements over prior approaches across multiple datasets and models, with gains of up to 10% F1. Moreover, NCC extends bias mitigation to broader tasks such as multiple-choice question answering. Our analysis shows that, when combined with in-context learning, NCC is less sensitive to few-shot example selection, requires fewer examples for competitive performance, and produces more reliable confidence estimates. These findings highlight the importance of mitigating full-label biases to improve the performance and robustness of LLM-based methods, particularly in real-world applications where class labels naturally consist of multiple tokens.

Mitigação do Viés de Comprimento de Rótulo em Modelos de Linguagem de Grande Escala

Mitigating Label Length Bias in Large Language Models

Resumo

Support