ChatPaper.aiChatPaper

Смягчение смещения по длине меток в больших языковых моделях

Mitigating Label Length Bias in Large Language Models

November 18, 2025
Авторы: Mario Sanz-Guerrero, Katharina von der Wense
cs.AI

Аннотация

Крупные языковые модели (LLMs) демонстрируют мощные возможности обучения в условиях нулевого и малого числа примеров. Однако при прогнозировании из набора кандидатных вариантов LLMs подвержены смещениям, связанным с метками, а существующие методы калибровки не учитывают смещения, возникающие из-за меток классов, состоящих из нескольких токенов. Мы решаем проблему, которую называем **смещением по длине метки**, когда метки разной длины обрабатываются непоследовательно, даже после стандартной нормализации по длине. Для её устранения мы предлагаем **нормализованную контекстуальную калибровку (NCC)** — эффективный метод, который нормализует и калибрует прогнозы на уровне полной метки. NCC обеспечивает статистически значимое улучшение по сравнению с предыдущими подходами на множестве наборов данных и моделей, с приростом до 10% по F1. Более того, NCC расширяет смягчение смещений на более широкий класс задач, таких как ответы на вопросы с множественным выбором. Наш анализ показывает, что в сочетании с обучением в контексте NCC менее чувствительна к выбору примеров для немногих попыток, требует меньше примеров для достижения конкурентоспособной производительности и даёт более надёжные оценки уверенности. Эти результаты подчёркивают важность устранения смещений на уровне полных меток для повышения производительности и устойчивости методов на основе LLM, особенно в реальных приложениях, где метки классов естественным образом состоят из нескольких токенов.
English
Large language models (LLMs) are powerful zero- and few-shot learners. However, when predicting over a set of candidate options, LLMs suffer from label biases, and existing calibration methods overlook biases arising from multi-token class labels. We tackle an issue we call label length bias, where labels of different lengths are treated inconsistently, even after standard length normalization. To mitigate it, we propose normalized contextual calibration (NCC), an effective method that normalizes and calibrates predictions at the full-label level. NCC achieves statistically significant improvements over prior approaches across multiple datasets and models, with gains of up to 10% F1. Moreover, NCC extends bias mitigation to broader tasks such as multiple-choice question answering. Our analysis shows that, when combined with in-context learning, NCC is less sensitive to few-shot example selection, requires fewer examples for competitive performance, and produces more reliable confidence estimates. These findings highlight the importance of mitigating full-label biases to improve the performance and robustness of LLM-based methods, particularly in real-world applications where class labels naturally consist of multiple tokens.
PDF62December 1, 2025