Sobre los límites de la adaptabilidad de los LLM: Impacto de los priors internalizados por el modelo en el rendimiento de tareas de anotación

Resumen

Los Grandes Modelos de Lenguaje (LLMs) se utilizan cada vez más para tareas de anotación zero-shot y de LLM como juez, sin embargo, su fiabilidad depende de cómo los priores internalizados por el modelo interactúan con las instrucciones proporcionadas por el usuario. Investigamos tres dimensiones de esta interacción: (1) cómo la familiaridad del LLM con los datos y las definiciones de tareas afecta el rendimiento, (2) la medida en que información adicional en las instrucciones puede corregir errores zero-shot ("persistencia de decisiones"), y (3) la susceptibilidad del modelo a definiciones de tareas desalineadas. Mediante experimentos de detección de toxicidad en diversos conjuntos de datos (que abarcan redes sociales, videojuegos, noticias y foros) utilizando modelos densos y de mezcla de expertos, encontramos que casi dos tercios de los errores zero-shot son resistentes a la corrección, con una tasa de rescate general (fracción de errores iniciales corregidos mediante instrucciones) de solo el 34.8%. Los errores de alta confianza resultan especialmente resistentes a la corrección. Cuando se les proporcionan definiciones desalineadas, los LLMs las siguen manteniendo los niveles de confianza sin cambios respecto a la condición alineada. De manera crucial, introducimos la Familiaridad Específica de Definición (DSF), que mide la alineación entre el concepto interno del modelo y la definición de la tarea. Tras controlar por confusores a nivel de conjunto de datos, la DSF muestra una asociación positiva con el rendimiento del modelo (r parcial = +0.41), mientras que tres métricas de memorización distintas (ROUGE-L, BERTScore y similitud coseno de embeddings) no logran mostrar una asociación positiva. Estos hallazgos evidencian las limitaciones de la corrección basada en instrucciones en tareas de anotación, destacando la importancia de la alineación de definiciones por sobre la memorización a nivel de texto.

English

Large Language Models (LLMs) are increasingly used for zero-shot annotation and LLM-as-a-judge tasks, yet their reliability hinges on how model-internalized priors interact with user-provided instructions. We investigate three dimensions of this interaction: (1) how an LLM's familiarity with data and task definitions affects performance, (2) the extent to which additional information in prompts can correct zero-shot errors ("decision stickiness"), and (3) model susceptibility to misaligned task definitions. Through experiments on toxicity detection across diverse datasets (spanning social media, gaming, news, and forums) using both dense and mixture-of-experts models, we find that nearly two-thirds of zero-shot errors are resistant to correction, with an overall rescue rate (fraction of initial errors corrected by prompting) of only 34.8%. High-confidence errors prove especially resistant to correction. When given misaligned definitions, LLMs follow them while maintaining confidence levels unchanged from the aligned condition. Crucially, we introduce Definition-Specific Familiarity (DSF), which measures alignment between a model's internal concept and the task definition. After controlling for dataset-level confounds, DSF shows a positive association with model performance (partial r = +0.41), while three distinct memorization metrics (ROUGE-L, BERTScore, and embedding cosine similarity) all fail to show a positive association. These findings show the limitations of prompt-based correction in annotation tasks, highlighting the importance of definition alignment over text-level memorization.