대형 언어 모델 해킹: 텍스트 주석 작업에 LLM 사용 시 숨겨진 위험성 정량화
Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation
September 10, 2025
저자: Joachim Baumann, Paul Röttger, Aleksandra Urman, Albert Wendsjö, Flor Miriam Plaza-del-Arco, Johannes B. Gruber, Dirk Hovy
cs.AI
초록
대형 언어 모델(LLMs)은 데이터 주석 작업 및 텍스트 분석과 같은 노동 집약적 작업의 자동화를 가능하게 함으로써 사회과학 연구를 빠르게 변화시키고 있습니다. 그러나 LLM의 출력은 연구자들이 선택한 구현 방식(예: 모델 선택, 프롬프트 전략, 또는 온도 설정)에 따라 크게 달라질 수 있습니다. 이러한 변동은 체계적인 편향과 무작위 오류를 초래할 수 있으며, 이는 하위 분석으로 전파되어 제1종 오류(Type I), 제2종 오류(Type II), 제S종 오류(Type S), 또는 제M종 오류(Type M)를 유발할 수 있습니다. 우리는 이를 LLM 해킹(LLM hacking)이라고 부릅니다.
우리는 21편의 출판된 사회과학 연구에서 37개의 데이터 주석 작업을 복제하고 18개의 서로 다른 모델을 사용하여 LLM 해킹의 위험을 정량화했습니다. 1,300만 개의 LLM 레이블을 분석하여, 연구자들의 현실적인 선택이 통계적 결론에 미치는 영향을 측정하기 위해 2,361개의 가설을 테스트했습니다. 우리는 최첨단 모델의 경우 약 3분의 1의 가설에서, 그리고 소형 언어 모델의 경우 절반의 가설에서 LLM 주석 데이터를 기반으로 한 잘못된 결론을 발견했습니다. 우리의 연구 결과는 더 높은 작업 성능과 더 나은 일반 모델 능력이 LLM 해킹 위험을 줄이는 것을 보여주지만, 매우 정확한 모델조차도 이를 완전히 제거하지는 못합니다. LLM 해킹 위험은 효과 크기가 증가함에 따라 감소하며, 이는 유의성 임계값 근처에서 발견된 결과에 대한 더 엄격한 검증의 필요성을 시사합니다. LLM 해킹 완화 기술에 대한 우리의 광범위한 분석은 거짓 양성 발견을 줄이고 모델 선택을 개선하는 데 인간 주석의 중요성을 강조합니다. 놀랍게도, 일반적인 회귀 추정기 보정 기술은 제1종 오류와 제2종 오류 간의 상충 관계가 크기 때문에 LLM 해킹 위험을 줄이는 데 거의 효과가 없습니다.
우연한 오류를 넘어서, 우리는 의도적인 LLM 해킹이 허용할 수 없을 만큼 간단하다는 것을 발견했습니다. 소수의 LLM과 단 몇 개의 프롬프트 패러프레이즈만으로도 어떤 것이든 통계적으로 유의미한 것으로 제시될 수 있습니다.
English
Large language models (LLMs) are rapidly transforming social science research
by enabling the automation of labor-intensive tasks like data annotation and
text analysis. However, LLM outputs vary significantly depending on the
implementation choices made by researchers (e.g., model selection, prompting
strategy, or temperature settings). Such variation can introduce systematic
biases and random errors, which propagate to downstream analyses and cause Type
I, Type II, Type S, or Type M errors. We call this LLM hacking.
We quantify the risk of LLM hacking by replicating 37 data annotation tasks
from 21 published social science research studies with 18 different models.
Analyzing 13 million LLM labels, we test 2,361 realistic hypotheses to measure
how plausible researcher choices affect statistical conclusions. We find
incorrect conclusions based on LLM-annotated data in approximately one in three
hypotheses for state-of-the-art models, and in half the hypotheses for small
language models. While our findings show that higher task performance and
better general model capabilities reduce LLM hacking risk, even highly accurate
models do not completely eliminate it. The risk of LLM hacking decreases as
effect sizes increase, indicating the need for more rigorous verification of
findings near significance thresholds. Our extensive analysis of LLM hacking
mitigation techniques emphasizes the importance of human annotations in
reducing false positive findings and improving model selection. Surprisingly,
common regression estimator correction techniques are largely ineffective in
reducing LLM hacking risk, as they heavily trade off Type I vs. Type II errors.
Beyond accidental errors, we find that intentional LLM hacking is
unacceptably simple. With few LLMs and just a handful of prompt paraphrases,
anything can be presented as statistically significant.