ChatPaper.aiChatPaper

대규모 언어 모델의 레이블 길이 편향 완화

Mitigating Label Length Bias in Large Language Models

November 18, 2025
저자: Mario Sanz-Guerrero, Katharina von der Wense
cs.AI

초록

대규모 언어 모델(LLM)은 강력한 제로샷 및 퓨샷 학습 능력을 지닙니다. 그러나 후보 옵션 집합에 대한 예측 시 LLM은 레이블 편향에 취약하며, 기존 보정 방법은 다중 토큰 클래스 레이블에서 발생하는 편향을 간과합니다. 본 연구는 표준 길이 정규화 후에도 서로 다른 길이의 레이블이 일관되지 않게 처리되는 '레이블 길이 편향' 문제를 다룹니다. 이를 완화하기 위해 전체 레이블 수준에서 예측을 정규화하고 보정하는 효과적인 방법인 정규화된 문맥 보정(NCC)을 제안합니다. NCC는 여러 데이터셋과 모델에서 기존 접근법 대비 통계적으로 유의미한 성능 향상을 달성하며, 최대 10%p의 F1 점수 상승을 보입니다. 더 나아가 NCC는 다중 선택 질의응답과 같은 보다 광범위한 작업으로 편향 완화를 확장합니다. 분석 결과, 문맥 학습과 결합된 NCC는 퓨샷 예시 선택에 덜 민감하며, 경쟁력 있는 성능을 위해 더 적은 예시를 요구하고, 더 신뢰할 수 있는 신뢰도 추정치를 생성합니다. 이러한 결과는 클래스 레이블이 자연스럽게 다중 토큰으로 구성된 실제 애플리케이션에서 특히 LLM 기반 방법의 성능과 강건성을 향상시키기 위해 전체 레이블 편향을 완화하는 중요성을 강조합니다.
English
Large language models (LLMs) are powerful zero- and few-shot learners. However, when predicting over a set of candidate options, LLMs suffer from label biases, and existing calibration methods overlook biases arising from multi-token class labels. We tackle an issue we call label length bias, where labels of different lengths are treated inconsistently, even after standard length normalization. To mitigate it, we propose normalized contextual calibration (NCC), an effective method that normalizes and calibrates predictions at the full-label level. NCC achieves statistically significant improvements over prior approaches across multiple datasets and models, with gains of up to 10% F1. Moreover, NCC extends bias mitigation to broader tasks such as multiple-choice question answering. Our analysis shows that, when combined with in-context learning, NCC is less sensitive to few-shot example selection, requires fewer examples for competitive performance, and produces more reliable confidence estimates. These findings highlight the importance of mitigating full-label biases to improve the performance and robustness of LLM-based methods, particularly in real-world applications where class labels naturally consist of multiple tokens.
PDF62December 1, 2025