ChatPaper.aiChatPaper

Mitigación del Sesgo por Longitud de Etiqueta en Modelos de Lenguaje a Gran Escala

Mitigating Label Length Bias in Large Language Models

November 18, 2025
Autores: Mario Sanz-Guerrero, Katharina von der Wense
cs.AI

Resumen

Los modelos de lenguaje de gran tamaño (LLM) son aprendices potentes en contextos de cero y pocos ejemplos. Sin embargo, al predecir sobre un conjunto de opciones candidatas, los LLM sufren de sesgos de etiqueta, y los métodos de calibración existentes pasan por alto los sesgos que surgen de las etiquetas de clase compuestas por múltiples tokens. Abordamos un problema que denominamos sesgo por longitud de etiqueta, donde las etiquetas de diferentes longitudes se tratan de manera inconsistente, incluso después de la normalización de longitud estándar. Para mitigarlo, proponemos la calibración contextual normalizada (NCC), un método efectivo que normaliza y calibra las predicciones a nivel de etiqueta completa. NCC logra mejoras estadísticamente significativas sobre enfoques previos en múltiples conjuntos de datos y modelos, con ganancias de hasta un 10% en F1. Además, NCC extiende la mitigación de sesgos a tareas más amplias, como la respuesta a preguntas de opción múltiple. Nuestro análisis muestra que, cuando se combina con el aprendizaje en contexto, NCC es menos sensible a la selección de ejemplos en pocos intentos, requiere menos ejemplos para un rendimiento competitivo y produce estimaciones de confianza más fiables. Estos hallazgos subrayan la importancia de mitigar los sesgos a nivel de etiqueta completa para mejorar el rendimiento y la robustez de los métodos basados en LLM, particularmente en aplicaciones del mundo real donde las etiquetas de clase constan naturalmente de múltiples tokens.
English
Large language models (LLMs) are powerful zero- and few-shot learners. However, when predicting over a set of candidate options, LLMs suffer from label biases, and existing calibration methods overlook biases arising from multi-token class labels. We tackle an issue we call label length bias, where labels of different lengths are treated inconsistently, even after standard length normalization. To mitigate it, we propose normalized contextual calibration (NCC), an effective method that normalizes and calibrates predictions at the full-label level. NCC achieves statistically significant improvements over prior approaches across multiple datasets and models, with gains of up to 10% F1. Moreover, NCC extends bias mitigation to broader tasks such as multiple-choice question answering. Our analysis shows that, when combined with in-context learning, NCC is less sensitive to few-shot example selection, requires fewer examples for competitive performance, and produces more reliable confidence estimates. These findings highlight the importance of mitigating full-label biases to improve the performance and robustness of LLM-based methods, particularly in real-world applications where class labels naturally consist of multiple tokens.
PDF62December 1, 2025