ChatPaper.aiChatPaper

大規模言語モデルにおけるラベル長バイアスの軽減

Mitigating Label Length Bias in Large Language Models

November 18, 2025
著者: Mario Sanz-Guerrero, Katharina von der Wense
cs.AI

要旨

大規模言語モデル(LLM)は強力なゼロショット・少数ショット学習器である。しかし、候補選択肢の集合に対して予測を行う際、LLMはラベルバイアスの影響を受け、既存の較正手法は複数トークンから成るクラスラベルに起因するバイアスを看過している。本論文では、標準的な長さ正規化を施した後でも、異なる長さのラベルが不整合に扱われる「ラベル長バイアス」と呼ばれる問題に取り組む。この緩和のため、我々は完全ラベルレベルで予測を正規化し較正する効果的手法である正規化文脈較正(NCC)を提案する。NCCは複数のデータセットとモデルにおいて従来手法を統計的に有意に上回る改善を達成し、F1スコアで最大10%の向上を示した。さらにNCCは、多肢選択式質問応答といったより広範なタスクへのバイアス緩和にも適用可能である。分析の結果、文脈内学習と組み合わせた場合、NCCは少数ショット事例の選択に対する感度が低く、競争力のある性能達成に必要な事例数が少なく、より信頼性の高い確信度推定を生成することが明らかとなった。これらの知見は、特に現実世界の応用においてクラスラベルが自然に複数トークンで構成される場合、LLMベース手法の性能と頑健性向上のために、完全ラベルレベルのバイアス緩和の重要性を浮き彫りにする。
English
Large language models (LLMs) are powerful zero- and few-shot learners. However, when predicting over a set of candidate options, LLMs suffer from label biases, and existing calibration methods overlook biases arising from multi-token class labels. We tackle an issue we call label length bias, where labels of different lengths are treated inconsistently, even after standard length normalization. To mitigate it, we propose normalized contextual calibration (NCC), an effective method that normalizes and calibrates predictions at the full-label level. NCC achieves statistically significant improvements over prior approaches across multiple datasets and models, with gains of up to 10% F1. Moreover, NCC extends bias mitigation to broader tasks such as multiple-choice question answering. Our analysis shows that, when combined with in-context learning, NCC is less sensitive to few-shot example selection, requires fewer examples for competitive performance, and produces more reliable confidence estimates. These findings highlight the importance of mitigating full-label biases to improve the performance and robustness of LLM-based methods, particularly in real-world applications where class labels naturally consist of multiple tokens.
PDF62December 1, 2025