나는 생각한다, 고로 나는 자격 미달인가? LLM 채용 평가에서 언어적 시볼레스 감지를 평가하기 위한 벤치마크
I Think, Therefore I Am Under-Qualified? A Benchmark for Evaluating Linguistic Shibboleth Detection in LLM Hiring Evaluations
August 6, 2025
저자: Julia Kharchenko, Tanya Roosta, Aman Chadha, Chirag Shah
cs.AI
초록
본 논문은 대형 언어 모델(LLMs)이 언어적 시볼레스(linguistic shibboleths), 즉 성별, 사회 계층, 지역적 배경과 같은 인구통계학적 속성을 의도치 않게 드러낼 수 있는 미묘한 언어적 표지에 어떻게 반응하는지 평가하기 위한 포괄적인 벤치마크를 소개한다. 검증된 100개의 질문-응답 쌍을 사용하여 신중하게 구성된 인터뷰 시뮬레이션을 통해, 우리는 LLMs가 동일한 내용의 질문에도 불구하고 특정 언어 패턴, 특히 헤징 언어(hedging language)를 체계적으로 불리하게 평가하는 방식을 보여준다. 본 벤치마크는 의미적 동등성을 유지하면서 특정 현상을 분리할 수 있는 통제된 언어적 변이를 생성하며, 이를 통해 자동화된 평가 시스템에서의 인구통계학적 편향을 정밀하게 측정할 수 있다. 우리는 다중 언어적 차원에서 접근법을 검증하며, 헤징된 응답이 평균적으로 25.6% 낮은 평가를 받는 것을 보여주고, 모델별 편향을 식별하는 데 벤치마크의 효과성을 입증한다. 이 연구는 AI 시스템에서의 언어적 차별을 탐지하고 측정하기 위한 기초적인 프레임워크를 구축하며, 자동화된 의사결정 맥락에서의 공정성에 광범위하게 적용될 수 있다.
English
This paper introduces a comprehensive benchmark for evaluating how Large
Language Models (LLMs) respond to linguistic shibboleths: subtle linguistic
markers that can inadvertently reveal demographic attributes such as gender,
social class, or regional background. Through carefully constructed interview
simulations using 100 validated question-response pairs, we demonstrate how
LLMs systematically penalize certain linguistic patterns, particularly hedging
language, despite equivalent content quality. Our benchmark generates
controlled linguistic variations that isolate specific phenomena while
maintaining semantic equivalence, which enables the precise measurement of
demographic bias in automated evaluation systems. We validate our approach
along multiple linguistic dimensions, showing that hedged responses receive
25.6% lower ratings on average, and demonstrate the benchmark's effectiveness
in identifying model-specific biases. This work establishes a foundational
framework for detecting and measuring linguistic discrimination in AI systems,
with broad applications to fairness in automated decision-making contexts.