Über die Grenzen der Anpassungsfähigkeit von LLMs: Einfluss modell-internalisierter Priors auf die Leistung bei Annotationsaufgaben

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend für Zero-Shot-Annotationen und LLM-als-Richter-Aufgaben eingesetzt, doch ihre Zuverlässigkeit hängt davon ab, wie modellinterne A-priori-Informationen mit benutzerbereitgestellten Anweisungen interagieren. Wir untersuchen drei Dimensionen dieser Interaktion: (1) wie sich die Vertrautheit eines LLMs mit Daten und Aufgabendefinitionen auf die Leistung auswirkt, (2) inwieweit zusätzliche Informationen in Prompts Zero-Shot-Fehler korrigieren können („Entscheidungsresistenz“) und (3) die Anfälligkeit von Modellen gegenüber fehlausgerichteten Aufgabendefinitionen. Durch Experimente zur Toxizitätserkennung über verschiedene Datensätze hinweg (soziale Medien, Gaming, Nachrichten und Foren) unter Verwendung von dichten sowie Mixture-of-Experts-Modellen stellen wir fest, dass fast zwei Drittel der Zero-Shot-Fehler resistent gegenüber Korrekturen sind, mit einer Gesamtrettungsrate (Anteil der durch Prompting korrigierten anfänglichen Fehler) von nur 34,8 %. Fehler mit hoher Konfidenz erweisen sich dabei als besonders korrekturresistent. Werden LLMs fehlausgerichtete Definitionen vorgegeben, befolgen sie diese, während das Konfidenzniveau im Vergleich zur korrekt ausgerichteten Bedingung unverändert bleibt. Entscheidend ist, dass wir die definitionsspezifische Vertrautheit (Definition-Specific Familiarity, DSF) einführen, welche die Übereinstimmung zwischen dem internen Konzept eines Modells und der Aufgabendefinition misst. Nach Kontrolle von Störvariablen auf Datensatzebene zeigt DSF einen positiven Zusammenhang mit der Modellleistung (partielles r = +0,41), während drei verschiedene Metriken zur Textmemorierung (ROUGE-L, BERTScore und Einbettungs-Cosinus-Ähnlichkeit) alle keinen positiven Zusammenhang aufweisen. Diese Ergebnisse zeigen die Grenzen der promptbasierten Korrektur bei Annotationsaufgaben und unterstreichen die Bedeutung der Definitionsausrichtung gegenüber der Memorierung auf Textebene.

English

Large Language Models (LLMs) are increasingly used for zero-shot annotation and LLM-as-a-judge tasks, yet their reliability hinges on how model-internalized priors interact with user-provided instructions. We investigate three dimensions of this interaction: (1) how an LLM's familiarity with data and task definitions affects performance, (2) the extent to which additional information in prompts can correct zero-shot errors ("decision stickiness"), and (3) model susceptibility to misaligned task definitions. Through experiments on toxicity detection across diverse datasets (spanning social media, gaming, news, and forums) using both dense and mixture-of-experts models, we find that nearly two-thirds of zero-shot errors are resistant to correction, with an overall rescue rate (fraction of initial errors corrected by prompting) of only 34.8%. High-confidence errors prove especially resistant to correction. When given misaligned definitions, LLMs follow them while maintaining confidence levels unchanged from the aligned condition. Crucially, we introduce Definition-Specific Familiarity (DSF), which measures alignment between a model's internal concept and the task definition. After controlling for dataset-level confounds, DSF shows a positive association with model performance (partial r = +0.41), while three distinct memorization metrics (ROUGE-L, BERTScore, and embedding cosine similarity) all fail to show a positive association. These findings show the limitations of prompt-based correction in annotation tasks, highlighting the importance of definition alignment over text-level memorization.