О пределах адаптивности LLM: влияние интернализованных моделью априорных представлений на производительность задач аннотирования

Аннотация

Большие языковые модели (LLM) все чаще применяются для задачи аннотации в режиме zero-shot и в роли судьи (LLM-as-a-judge), однако их надежность зависит от того, как внутренние априорные знания модели взаимодействуют с предоставленными пользователем инструкциями. Мы исследуем три аспекта этого взаимодействия: (1) как степень знакомства LLM с данными и определением задачи влияет на производительность, (2) в какой мере дополнительная информация в промптах способна исправить ошибки zero-shot («прилипание решений»), и (3) восприимчивость модели к неверно заданным определениям задачи. В ходе экспериментов по обнаружению токсичности на разнообразных наборах данных (охватывающих социальные сети, игры, новости и форумы) с использованием как плотных моделей, так и моделей смеси экспертов мы обнаружили, что почти две трети ошибок zero-shot устойчивы к исправлению, при этом общий показатель спасения (доля первоначальных ошибок, исправленных с помощью промптинга) составляет лишь 34,8%. Ошибки, совершаемые с высокой уверенностью, оказываются особенно устойчивы к коррекции. При получении некорректных определений LLM следуют им, сохраняя уровень уверенности неизменным по сравнению с условием соответствия. Ключевым вкладом работы является введение метрики Определенческая Осведомленность (Definition-Specific Familiarity, DSF), которая измеряет согласованность между внутренним понятием модели и определением задачи. После контроля за смешивающими факторами на уровне набора данных, DSF демонстрирует положительную связь с производительностью модели (частная r = +0,41), в то время как три различные метрики запоминания (ROUGE-L, BERTScore и косинусное сходство эмбеддингов) не показывают такой положительной ассоциации. Полученные результаты демонстрируют ограниченность промпт-ориентированной коррекции в задачах аннотации, подчеркивая важность согласованности определений, а не текстового запоминания.

English

Large Language Models (LLMs) are increasingly used for zero-shot annotation and LLM-as-a-judge tasks, yet their reliability hinges on how model-internalized priors interact with user-provided instructions. We investigate three dimensions of this interaction: (1) how an LLM's familiarity with data and task definitions affects performance, (2) the extent to which additional information in prompts can correct zero-shot errors ("decision stickiness"), and (3) model susceptibility to misaligned task definitions. Through experiments on toxicity detection across diverse datasets (spanning social media, gaming, news, and forums) using both dense and mixture-of-experts models, we find that nearly two-thirds of zero-shot errors are resistant to correction, with an overall rescue rate (fraction of initial errors corrected by prompting) of only 34.8%. High-confidence errors prove especially resistant to correction. When given misaligned definitions, LLMs follow them while maintaining confidence levels unchanged from the aligned condition. Crucially, we introduce Definition-Specific Familiarity (DSF), which measures alignment between a model's internal concept and the task definition. After controlling for dataset-level confounds, DSF shows a positive association with model performance (partial r = +0.41), while three distinct memorization metrics (ROUGE-L, BERTScore, and embedding cosine similarity) all fail to show a positive association. These findings show the limitations of prompt-based correction in annotation tasks, highlighting the importance of definition alignment over text-level memorization.