Sobre os Limites da Adaptabilidade de LLMs: Impacto dos Priores Internalizados pelo Modelo no Desempenho em Tarefas de Anotação

Resumo

Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais utilizados para anotação zero-shot e tarefas de "LLM como juiz", mas sua confiabilidade depende de como os priores internalizados pelo modelo interagem com as instruções fornecidas pelo usuário. Investigamos três dimensões dessa interação: (1) como a familiaridade de um LLM com dados e definições de tarefas afeta seu desempenho, (2) até que ponto informações adicionais em prompts podem corrigir erros zero-shot ("aderência decisória"), e (3) a suscetibilidade do modelo a definições de tarefas desalinhadas. Por meio de experimentos em detecção de toxicidade em diversos conjuntos de dados (abrangendo mídias sociais, jogos, notícias e fóruns), utilizando tanto modelos densos quanto modelos de mistura de especialistas, descobrimos que quase dois terços dos erros zero-shot são resistentes à correção, com uma taxa geral de resgate (fração de erros iniciais corrigidos por meio de prompting) de apenas 34,8%. Erros de alta confiança mostraram-se especialmente resistentes à correção. Quando recebem definições desalinhadas, os LLMs as seguem, mantendo níveis de confiança inalterados em relação à condição alinhada. Crucialmente, introduzimos a Familiaridade Específica da Definição (DSF, do inglês *Definition-Specific Familiarity*), que mede o alinhamento entre o conceito interno do modelo e a definição da tarefa. Após controlar fatores de confusão ao nível do conjunto de dados, a DSF mostra uma associação positiva com o desempenho do modelo (r parcial = +0,41), enquanto três métricas distintas de memorização (ROUGE-L, BERTScore e similaridade de cosseno de embeddings) falham em apresentar associação positiva. Esses resultados evidenciam as limitações da correção baseada em prompts em tarefas de anotação, destacando a importância do alinhamento das definições em detrimento da memorização no nível textual.

English

Large Language Models (LLMs) are increasingly used for zero-shot annotation and LLM-as-a-judge tasks, yet their reliability hinges on how model-internalized priors interact with user-provided instructions. We investigate three dimensions of this interaction: (1) how an LLM's familiarity with data and task definitions affects performance, (2) the extent to which additional information in prompts can correct zero-shot errors ("decision stickiness"), and (3) model susceptibility to misaligned task definitions. Through experiments on toxicity detection across diverse datasets (spanning social media, gaming, news, and forums) using both dense and mixture-of-experts models, we find that nearly two-thirds of zero-shot errors are resistant to correction, with an overall rescue rate (fraction of initial errors corrected by prompting) of only 34.8%. High-confidence errors prove especially resistant to correction. When given misaligned definitions, LLMs follow them while maintaining confidence levels unchanged from the aligned condition. Crucially, we introduce Definition-Specific Familiarity (DSF), which measures alignment between a model's internal concept and the task definition. After controlling for dataset-level confounds, DSF shows a positive association with model performance (partial r = +0.41), while three distinct memorization metrics (ROUGE-L, BERTScore, and embedding cosine similarity) all fail to show a positive association. These findings show the limitations of prompt-based correction in annotation tasks, highlighting the importance of definition alignment over text-level memorization.