Over de grenzen van LLM-aanpasbaarheid: Impact van model-geïnternaliseerde priori's op annotatietaakprestaties

Samenvatting

Grote taalmodellen (LLM's) worden steeds vaker gebruikt voor zero-shot annotatie en LLM-als-beoordelaar taken, maar hun betrouwbaarheid hangt af van hoe model-interne a priori kennis interageert met door de gebruiker verstrekte instructies. We onderzoeken drie dimensies van deze interactie: (1) hoe de bekendheid van een LLM met data en taakdefinities de prestaties beïnvloedt, (2) in hoeverre aanvullende informatie in prompts zero-shot fouten kan corrigeren ("beslissingshardnekkigheid"), en (3) de gevoeligheid van het model voor misaligned taakdefinities. Door middel van experimenten op toxiciteitsdetectie in uiteenlopende datasets (variërend van sociale media, gaming, nieuws en forums) met zowel dichte als mixture-of-experts modellen, vinden we dat bijna twee derde van de zero-shot fouten resistent is tegen correctie, met een totaal reddingspercentage (fractie van initiële fouten gecorrigeerd door prompting) van slechts 34,8%. Fouten met hoge betrouwbaarheid blijken bijzonder resistent tegen correctie. Wanneer LLM's misaligned definities krijgen, volgen ze deze terwijl de betrouwbaarheidsniveaus ongewijzigd blijven ten opzichte van de aligned conditie. Cruciaal is dat we Definitie-Specifieke Familiariteit (DSF) introduceren, die de afstemming meet tussen het interne concept van een model en de taakdefinitie. Na controle voor confounders op datasethiveau vertoont DSF een positieve associatie met modelprestaties (partiële r = +0,41), terwijl drie verschillende memorisatiemetrieken (ROUGE-L, BERTScore en embedding cosinusgelijkenis) allemaal geen positieve associatie laten zien. Deze bevindingen tonen de beperkingen aan van prompt-gebaseerde correctie in annotatietaken en benadrukken het belang van definitie-afstemming boven tekstniveau memorisatie.

English

Large Language Models (LLMs) are increasingly used for zero-shot annotation and LLM-as-a-judge tasks, yet their reliability hinges on how model-internalized priors interact with user-provided instructions. We investigate three dimensions of this interaction: (1) how an LLM's familiarity with data and task definitions affects performance, (2) the extent to which additional information in prompts can correct zero-shot errors ("decision stickiness"), and (3) model susceptibility to misaligned task definitions. Through experiments on toxicity detection across diverse datasets (spanning social media, gaming, news, and forums) using both dense and mixture-of-experts models, we find that nearly two-thirds of zero-shot errors are resistant to correction, with an overall rescue rate (fraction of initial errors corrected by prompting) of only 34.8%. High-confidence errors prove especially resistant to correction. When given misaligned definitions, LLMs follow them while maintaining confidence levels unchanged from the aligned condition. Crucially, we introduce Definition-Specific Familiarity (DSF), which measures alignment between a model's internal concept and the task definition. After controlling for dataset-level confounds, DSF shows a positive association with model performance (partial r = +0.41), while three distinct memorization metrics (ROUGE-L, BERTScore, and embedding cosine similarity) all fail to show a positive association. These findings show the limitations of prompt-based correction in annotation tasks, highlighting the importance of definition alignment over text-level memorization.