ChatPaper.aiChatPaper

Minderung der Label-Längenverzerrung in großen Sprachmodellen

Mitigating Label Length Bias in Large Language Models

November 18, 2025
papers.authors: Mario Sanz-Guerrero, Katharina von der Wense
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) sind leistungsstarke Zero- und Few-Shot-Lerner. Bei der Vorhersage über eine Menge von Kandidatenoptionen leiden LLMs jedoch unter Label-Bias, und bestehende Kalibrierungsmethoden übersehen Verzerrungen, die aus Multi-Token-Klassenlabels resultieren. Wir behandeln ein Problem, das wir als Label-Längen-Bias bezeichnen, bei dem Labels unterschiedlicher Länge inkonsistent behandelt werden, selbst nach standardmäßiger Längennormierung. Um dies zu mildern, schlagen wir die normalisierte kontextuelle Kalibrierung (NCC) vor, eine effektive Methode, die Vorhersagen auf der Ebene des vollständigen Labels normalisiert und kalibriert. NCC erzielt statistisch signifikante Verbesserungen gegenüber früheren Ansätzen über mehrere Datensätze und Modelle hinweg, mit Steigerungen von bis zu 10 % F1. Darüber hinaus erweitert NCC die Bias-Minderung auf breitere Aufgaben wie das Beantworten von Multiple-Choice-Fragen. Unsere Analyse zeigt, dass NCC in Kombination mit In-Context-Learning weniger empfindlich auf die Auswahl von Few-Shot-Beispielen reagiert, weniger Beispiele für wettbewerbsfähige Leistung benötigt und zuverlässigere Konfidenzschätzungen liefert. Diese Ergebnisse unterstreichen die Bedeutung der Minderung von Voll-Label-Bias, um die Leistung und Robustheit LLM-basierter Methoden zu verbessern, insbesondere in realen Anwendungen, bei denen Klassenlabels natürlicherweise aus mehreren Tokens bestehen.
English
Large language models (LLMs) are powerful zero- and few-shot learners. However, when predicting over a set of candidate options, LLMs suffer from label biases, and existing calibration methods overlook biases arising from multi-token class labels. We tackle an issue we call label length bias, where labels of different lengths are treated inconsistently, even after standard length normalization. To mitigate it, we propose normalized contextual calibration (NCC), an effective method that normalizes and calibrates predictions at the full-label level. NCC achieves statistically significant improvements over prior approaches across multiple datasets and models, with gains of up to 10% F1. Moreover, NCC extends bias mitigation to broader tasks such as multiple-choice question answering. Our analysis shows that, when combined with in-context learning, NCC is less sensitive to few-shot example selection, requires fewer examples for competitive performance, and produces more reliable confidence estimates. These findings highlight the importance of mitigating full-label biases to improve the performance and robustness of LLM-based methods, particularly in real-world applications where class labels naturally consist of multiple tokens.
PDF62December 1, 2025