Piratería de Modelos de Lenguaje de Gran Escala: Cuantificación de los Riesgos Ocultos del Uso de LLMs para la Anotación de Textos
Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation
September 10, 2025
Autores: Joachim Baumann, Paul Röttger, Aleksandra Urman, Albert Wendsjö, Flor Miriam Plaza-del-Arco, Johannes B. Gruber, Dirk Hovy
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están transformando rápidamente la investigación en ciencias sociales al permitir la automatización de tareas intensivas en mano de obra, como la anotación de datos y el análisis de textos. Sin embargo, los resultados de los LLMs varían significativamente según las decisiones de implementación tomadas por los investigadores (por ejemplo, la selección del modelo, la estrategia de *prompting* o los ajustes de temperatura). Esta variación puede introducir sesgos sistemáticos y errores aleatorios, los cuales se propagan a los análisis posteriores y causan errores de Tipo I, Tipo II, Tipo S o Tipo M. A este fenómeno lo denominamos *LLM hacking*.
Cuantificamos el riesgo de *LLM hacking* replicando 37 tareas de anotación de datos de 21 estudios de investigación en ciencias sociales publicados, utilizando 18 modelos diferentes. Al analizar 13 millones de etiquetas generadas por LLMs, probamos 2,361 hipótesis realistas para medir cómo las decisiones plausibles de los investigadores afectan las conclusiones estadísticas. Encontramos conclusiones incorrectas basadas en datos anotados por LLMs en aproximadamente una de cada tres hipótesis para los modelos más avanzados, y en la mitad de las hipótesis para los modelos de lenguaje pequeños. Si bien nuestros hallazgos muestran que un mayor rendimiento en la tarea y mejores capacidades generales del modelo reducen el riesgo de *LLM hacking*, incluso los modelos altamente precisos no lo eliminan por completo. El riesgo de *LLM hacking* disminuye a medida que aumentan los tamaños del efecto, lo que indica la necesidad de una verificación más rigurosa de los hallazgos cercanos a los umbrales de significancia. Nuestro extenso análisis de las técnicas de mitigación de *LLM hacking* enfatiza la importancia de las anotaciones humanas para reducir los falsos positivos y mejorar la selección de modelos. Sorprendentemente, las técnicas comunes de corrección de estimadores de regresión son en gran medida ineficaces para reducir el riesgo de *LLM hacking*, ya que intercambian significativamente errores de Tipo I frente a errores de Tipo II.
Más allá de los errores accidentales, encontramos que el *LLM hacking* intencional es inaceptablemente simple. Con pocos LLMs y solo un puñado de paráfrasis de *prompts*, cualquier cosa puede presentarse como estadísticamente significativa.
English
Large language models (LLMs) are rapidly transforming social science research
by enabling the automation of labor-intensive tasks like data annotation and
text analysis. However, LLM outputs vary significantly depending on the
implementation choices made by researchers (e.g., model selection, prompting
strategy, or temperature settings). Such variation can introduce systematic
biases and random errors, which propagate to downstream analyses and cause Type
I, Type II, Type S, or Type M errors. We call this LLM hacking.
We quantify the risk of LLM hacking by replicating 37 data annotation tasks
from 21 published social science research studies with 18 different models.
Analyzing 13 million LLM labels, we test 2,361 realistic hypotheses to measure
how plausible researcher choices affect statistical conclusions. We find
incorrect conclusions based on LLM-annotated data in approximately one in three
hypotheses for state-of-the-art models, and in half the hypotheses for small
language models. While our findings show that higher task performance and
better general model capabilities reduce LLM hacking risk, even highly accurate
models do not completely eliminate it. The risk of LLM hacking decreases as
effect sizes increase, indicating the need for more rigorous verification of
findings near significance thresholds. Our extensive analysis of LLM hacking
mitigation techniques emphasizes the importance of human annotations in
reducing false positive findings and improving model selection. Surprisingly,
common regression estimator correction techniques are largely ineffective in
reducing LLM hacking risk, as they heavily trade off Type I vs. Type II errors.
Beyond accidental errors, we find that intentional LLM hacking is
unacceptably simple. With few LLMs and just a handful of prompt paraphrases,
anything can be presented as statistically significant.