Piratería de Modelos de Lenguaje de Gran Escala: Cuantificación de los Riesgos Ocultos del Uso de LLMs para la Anotación de Textos

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están transformando rápidamente la investigación en ciencias sociales al permitir la automatización de tareas intensivas en mano de obra, como la anotación de datos y el análisis de textos. Sin embargo, los resultados de los LLMs varían significativamente según las decisiones de implementación tomadas por los investigadores (por ejemplo, la selección del modelo, la estrategia de *prompting* o los ajustes de temperatura). Esta variación puede introducir sesgos sistemáticos y errores aleatorios, los cuales se propagan a los análisis posteriores y causan errores de Tipo I, Tipo II, Tipo S o Tipo M. A este fenómeno lo denominamos *LLM hacking*. Cuantificamos el riesgo de *LLM hacking* replicando 37 tareas de anotación de datos de 21 estudios de investigación en ciencias sociales publicados, utilizando 18 modelos diferentes. Al analizar 13 millones de etiquetas generadas por LLMs, probamos 2,361 hipótesis realistas para medir cómo las decisiones plausibles de los investigadores afectan las conclusiones estadísticas. Encontramos conclusiones incorrectas basadas en datos anotados por LLMs en aproximadamente una de cada tres hipótesis para los modelos más avanzados, y en la mitad de las hipótesis para los modelos de lenguaje pequeños. Si bien nuestros hallazgos muestran que un mayor rendimiento en la tarea y mejores capacidades generales del modelo reducen el riesgo de *LLM hacking*, incluso los modelos altamente precisos no lo eliminan por completo. El riesgo de *LLM hacking* disminuye a medida que aumentan los tamaños del efecto, lo que indica la necesidad de una verificación más rigurosa de los hallazgos cercanos a los umbrales de significancia. Nuestro extenso análisis de las técnicas de mitigación de *LLM hacking* enfatiza la importancia de las anotaciones humanas para reducir los falsos positivos y mejorar la selección de modelos. Sorprendentemente, las técnicas comunes de corrección de estimadores de regresión son en gran medida ineficaces para reducir el riesgo de *LLM hacking*, ya que intercambian significativamente errores de Tipo I frente a errores de Tipo II. Más allá de los errores accidentales, encontramos que el *LLM hacking* intencional es inaceptablemente simple. Con pocos LLMs y solo un puñado de paráfrasis de *prompts*, cualquier cosa puede presentarse como estadísticamente significativa.

English

Large language models (LLMs) are rapidly transforming social science research by enabling the automation of labor-intensive tasks like data annotation and text analysis. However, LLM outputs vary significantly depending on the implementation choices made by researchers (e.g., model selection, prompting strategy, or temperature settings). Such variation can introduce systematic biases and random errors, which propagate to downstream analyses and cause Type I, Type II, Type S, or Type M errors. We call this LLM hacking. We quantify the risk of LLM hacking by replicating 37 data annotation tasks from 21 published social science research studies with 18 different models. Analyzing 13 million LLM labels, we test 2,361 realistic hypotheses to measure how plausible researcher choices affect statistical conclusions. We find incorrect conclusions based on LLM-annotated data in approximately one in three hypotheses for state-of-the-art models, and in half the hypotheses for small language models. While our findings show that higher task performance and better general model capabilities reduce LLM hacking risk, even highly accurate models do not completely eliminate it. The risk of LLM hacking decreases as effect sizes increase, indicating the need for more rigorous verification of findings near significance thresholds. Our extensive analysis of LLM hacking mitigation techniques emphasizes the importance of human annotations in reducing false positive findings and improving model selection. Surprisingly, common regression estimator correction techniques are largely ineffective in reducing LLM hacking risk, as they heavily trade off Type I vs. Type II errors. Beyond accidental errors, we find that intentional LLM hacking is unacceptably simple. With few LLMs and just a handful of prompt paraphrases, anything can be presented as statistically significant.

Piratería de Modelos de Lenguaje de Gran Escala: Cuantificación de los Riesgos Ocultos del Uso de LLMs para la Anotación de Textos

Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation

Resumen

Support