Sur les limites de l'adaptabilité des LLM : impact des priors internalisés par le modèle sur la performance des tâches d'annotation

Résumé

Les grands modèles de langage (LLM) sont de plus en plus utilisés pour l'annotation en zéro-shot et les tâches de jugement par LLM, mais leur fiabilité dépend de la manière dont les a priori internalisés par le modèle interagissent avec les instructions fournies par l'utilisateur. Nous étudions trois dimensions de cette interaction : (1) comment la familiarité d'un LLM avec les données et les définitions de tâches affecte sa performance, (2) dans quelle mesure des informations supplémentaires dans les invites peuvent corriger les erreurs en zéro-shot (« adhésion décisionnelle »), et (3) la susceptibilité du modèle à des définitions de tâches inappropriées. À travers des expériences de détection de toxicité sur divers ensembles de données (couvrant les réseaux sociaux, les jeux, l'actualité et les forums) utilisant à la fois des modèles denses et des modèles à mélange d'experts, nous constatons que près des deux tiers des erreurs en zéro-shot résistent à la correction, avec un taux de récupération global (fraction des erreurs initiales corrigées par l'invite) de seulement 34,8 %. Les erreurs à haute confiance s'avèrent particulièrement résistantes à la correction. Face à des définitions inappropriées, les LLM les suivent tout en maintenant des niveaux de confiance inchangés par rapport à la condition appropriée. Crucialement, nous introduisons la familiarité spécifique à la définition (DSF), qui mesure l'alignement entre le concept interne du modèle et la définition de la tâche. Après avoir contrôlé les facteurs de confusion au niveau de l'ensemble de données, la DSF montre une association positive avec la performance du modèle (r partiel = +0,41), tandis que trois métriques de mémorisation distinctes (ROUGE-L, BERTScore et similarité cosinusoïdale des plongements) ne parviennent pas à montrer une association positive. Ces résultats mettent en évidence les limites de la correction par invite dans les tâches d'annotation, soulignant l'importance de l'alignement des définitions par rapport à la mémorisation au niveau du texte.

English

Large Language Models (LLMs) are increasingly used for zero-shot annotation and LLM-as-a-judge tasks, yet their reliability hinges on how model-internalized priors interact with user-provided instructions. We investigate three dimensions of this interaction: (1) how an LLM's familiarity with data and task definitions affects performance, (2) the extent to which additional information in prompts can correct zero-shot errors ("decision stickiness"), and (3) model susceptibility to misaligned task definitions. Through experiments on toxicity detection across diverse datasets (spanning social media, gaming, news, and forums) using both dense and mixture-of-experts models, we find that nearly two-thirds of zero-shot errors are resistant to correction, with an overall rescue rate (fraction of initial errors corrected by prompting) of only 34.8%. High-confidence errors prove especially resistant to correction. When given misaligned definitions, LLMs follow them while maintaining confidence levels unchanged from the aligned condition. Crucially, we introduce Definition-Specific Familiarity (DSF), which measures alignment between a model's internal concept and the task definition. After controlling for dataset-level confounds, DSF shows a positive association with model performance (partial r = +0.41), while three distinct memorization metrics (ROUGE-L, BERTScore, and embedding cosine similarity) all fail to show a positive association. These findings show the limitations of prompt-based correction in annotation tasks, highlighting the importance of definition alignment over text-level memorization.