ChatPaper.aiChatPaper

Atténuation du biais de longueur des étiquettes dans les grands modèles de langage

Mitigating Label Length Bias in Large Language Models

November 18, 2025
papers.authors: Mario Sanz-Guerrero, Katharina von der Wense
cs.AI

papers.abstract

Les grands modèles de langage (LLM) sont des apprenants performants en contexte zéro-shot et few-shot. Cependant, lorsqu'ils effectuent des prédictions parmi un ensemble d'options candidates, les LLM souffrent de biais liés aux étiquettes, et les méthodes d'étalonnage existantes négligent les biais découlant des étiquettes de classe multi-tokens. Nous abordons un problème que nous appelons le biais de longueur des étiquettes, où les étiquettes de différentes longueurs sont traitées de manière incohérente, même après normalisation standard de la longueur. Pour y remédier, nous proposons l'étalonnage contextuel normalisé (NCC), une méthode efficace qui normalise et étalonne les prédictions au niveau de l'étiquette complète. NCC obtient des améliorations statistiquement significatives par rapport aux approches antérieures sur plusieurs jeux de données et modèles, avec des gains allant jusqu'à 10% en F1. De plus, NCC étend l'atténuation des biais à des tâches plus larges comme les questions à choix multiples. Notre analyse montre que, combiné à l'apprentissage en contexte, NCC est moins sensible à la sélection d'exemples few-shot, nécessite moins d'exemples pour des performances compétitives et produit des estimations de confiance plus fiables. Ces résultats soulignent l'importance d'atténuer les biais au niveau des étiquettes complètes pour améliorer les performances et la robustesse des méthodes basées sur les LLM, particulièrement dans les applications réelles où les étiquettes de classe comportent naturellement plusieurs tokens.
English
Large language models (LLMs) are powerful zero- and few-shot learners. However, when predicting over a set of candidate options, LLMs suffer from label biases, and existing calibration methods overlook biases arising from multi-token class labels. We tackle an issue we call label length bias, where labels of different lengths are treated inconsistently, even after standard length normalization. To mitigate it, we propose normalized contextual calibration (NCC), an effective method that normalizes and calibrates predictions at the full-label level. NCC achieves statistically significant improvements over prior approaches across multiple datasets and models, with gains of up to 10% F1. Moreover, NCC extends bias mitigation to broader tasks such as multiple-choice question answering. Our analysis shows that, when combined with in-context learning, NCC is less sensitive to few-shot example selection, requires fewer examples for competitive performance, and produces more reliable confidence estimates. These findings highlight the importance of mitigating full-label biases to improve the performance and robustness of LLM-based methods, particularly in real-world applications where class labels naturally consist of multiple tokens.
PDF62December 1, 2025