ChatPaper.aiChatPaper

Je pense, donc je suis sous-qualifié ? Un référentiel pour évaluer la détection des shibboleths linguistiques dans les évaluations d'embauche par les LLM

I Think, Therefore I Am Under-Qualified? A Benchmark for Evaluating Linguistic Shibboleth Detection in LLM Hiring Evaluations

August 6, 2025
papers.authors: Julia Kharchenko, Tanya Roosta, Aman Chadha, Chirag Shah
cs.AI

papers.abstract

Cet article présente un benchmark complet pour évaluer la manière dont les modèles de langage de grande taille (LLMs) réagissent aux shibboleths linguistiques : des marqueurs linguistiques subtils qui peuvent révéler involontairement des attributs démographiques tels que le genre, la classe sociale ou l'origine régionale. À travers des simulations d'entretiens soigneusement construites utilisant 100 paires de questions-réponses validées, nous démontrons comment les LLMs pénalisent systématiquement certains schémas linguistiques, en particulier le langage de précaution, malgré une qualité de contenu équivalente. Notre benchmark génère des variations linguistiques contrôlées qui isolent des phénomènes spécifiques tout en maintenant une équivalence sémantique, ce qui permet une mesure précise des biais démographiques dans les systèmes d'évaluation automatisés. Nous validons notre approche selon plusieurs dimensions linguistiques, montrant que les réponses prudentes reçoivent en moyenne des notes 25,6 % plus basses, et démontrons l'efficacité du benchmark pour identifier les biais spécifiques aux modèles. Ce travail établit un cadre fondamental pour détecter et mesurer la discrimination linguistique dans les systèmes d'intelligence artificielle, avec des applications étendues à l'équité dans les contextes de prise de décision automatisée.
English
This paper introduces a comprehensive benchmark for evaluating how Large Language Models (LLMs) respond to linguistic shibboleths: subtle linguistic markers that can inadvertently reveal demographic attributes such as gender, social class, or regional background. Through carefully constructed interview simulations using 100 validated question-response pairs, we demonstrate how LLMs systematically penalize certain linguistic patterns, particularly hedging language, despite equivalent content quality. Our benchmark generates controlled linguistic variations that isolate specific phenomena while maintaining semantic equivalence, which enables the precise measurement of demographic bias in automated evaluation systems. We validate our approach along multiple linguistic dimensions, showing that hedged responses receive 25.6% lower ratings on average, and demonstrate the benchmark's effectiveness in identifying model-specific biases. This work establishes a foundational framework for detecting and measuring linguistic discrimination in AI systems, with broad applications to fairness in automated decision-making contexts.
PDF22August 8, 2025