Qui est votre juge ? Sur la détectabilité des jugements générés par les modèles de langage
Who's Your Judge? On the Detectability of LLM-Generated Judgments
September 29, 2025
papers.authors: Dawei Li, Zhen Tan, Chengshuai Zhao, Bohan Jiang, Baixiang Huang, Pingchuan Ma, Abdullah Alnaibari, Kai Shu, Huan Liu
cs.AI
papers.abstract
Les jugements basés sur les modèles de langage de grande taille (LLM) exploitent la puissance des LLM pour évaluer efficacement le contenu candidat et fournir des scores de jugement. Cependant, les biais inhérents et les vulnérabilités des jugements générés par les LLM soulèvent des préoccupations, mettant en évidence le besoin urgent de les distinguer dans des scénarios sensibles tels que l'évaluation par les pairs académiques. Dans ce travail, nous proposons et formalisons la tâche de détection des jugements et étudions systématiquement la détectabilité des jugements générés par les LLM. Contrairement à la détection de texte généré par les LLM, la détection des jugements repose uniquement sur les scores de jugement et les candidats, reflétant des scénarios réels où les retours textuels sont souvent indisponibles dans le processus de détection. Notre analyse préliminaire montre que les méthodes existantes de détection de texte généré par les LLM performent mal en raison de leur incapacité à capturer l'interaction entre les scores de jugement et le contenu candidat — un aspect crucial pour une détection efficace des jugements. Inspirés par cela, nous introduisons J-Detector, un détecteur neuronal léger et transparent enrichi de caractéristiques linguistiques explicitement extraites et améliorées par les LLM pour relier les biais des juges LLM aux propriétés des candidats afin d'obtenir une détection précise. Les expériences menées sur divers ensembles de données démontrent l'efficacité de J-Detector et montrent comment son interprétabilité permet de quantifier les biais des juges LLM. Enfin, nous analysons les facteurs clés affectant la détectabilité des jugements générés par les LLM et validons l'utilité pratique de la détection des jugements dans des scénarios réels.
English
Large Language Model (LLM)-based judgments leverage powerful LLMs to
efficiently evaluate candidate content and provide judgment scores. However,
the inherent biases and vulnerabilities of LLM-generated judgments raise
concerns, underscoring the urgent need for distinguishing them in sensitive
scenarios like academic peer reviewing. In this work, we propose and formalize
the task of judgment detection and systematically investigate the detectability
of LLM-generated judgments. Unlike LLM-generated text detection, judgment
detection relies solely on judgment scores and candidates, reflecting
real-world scenarios where textual feedback is often unavailable in the
detection process. Our preliminary analysis shows that existing LLM-generated
text detection methods perform poorly given their incapability to capture the
interaction between judgment scores and candidate content -- an aspect crucial
for effective judgment detection. Inspired by this, we introduce
J-Detector, a lightweight and transparent neural detector augmented
with explicitly extracted linguistic and LLM-enhanced features to link LLM
judges' biases with candidates' properties for accurate detection. Experiments
across diverse datasets demonstrate the effectiveness of J-Detector
and show how its interpretability enables quantifying biases in LLM judges.
Finally, we analyze key factors affecting the detectability of LLM-generated
judgments and validate the practical utility of judgment detection in
real-world scenarios.