ChatPaper.aiChatPaper

Wie is jouw rechter? Over de detecteerbaarheid van door LLM gegenereerde oordelen

Who's Your Judge? On the Detectability of LLM-Generated Judgments

September 29, 2025
Auteurs: Dawei Li, Zhen Tan, Chengshuai Zhao, Bohan Jiang, Baixiang Huang, Pingchuan Ma, Abdullah Alnaibari, Kai Shu, Huan Liu
cs.AI

Samenvatting

Large Language Model (LLM)-gebaseerde beoordelingen maken gebruik van krachtige LLM's om kandidaat-inhoud efficiënt te evalueren en beoordelingsscores te geven. De inherente vooroordelen en kwetsbaarheden van LLM-gegenereerde beoordelingen roepen echter zorgen op, wat de dringende noodzaak benadrukt om ze te onderscheiden in gevoelige scenario's zoals academische peer review. In dit werk stellen we de taak van beoordelingsdetectie voor en formaliseren deze, en onderzoeken we systematisch de detecteerbaarheid van LLM-gegenereerde beoordelingen. In tegenstelling tot LLM-gegenereerde tekstdetectie, is beoordelingsdetectie uitsluitend gebaseerd op beoordelingsscores en kandidaten, wat realistische scenario's weerspiegelt waarin tekstuele feedback vaak niet beschikbaar is tijdens het detectieproces. Onze voorlopige analyse toont aan dat bestaande methoden voor LLM-gegenereerde tekstdetectie slecht presteren vanwege hun onvermogen om de interactie tussen beoordelingsscores en kandidaat-inhoud te vatten – een aspect dat cruciaal is voor effectieve beoordelingsdetectie. Geïnspireerd door dit inzicht introduceren we J-Detector, een lichtgewicht en transparante neurale detector die is versterkt met expliciet geëxtraheerde linguïstische en LLM-verbeterde kenmerken om de vooroordelen van LLM-beoordelaars te koppelen aan de eigenschappen van kandidaten voor nauwkeurige detectie. Experimenten met diverse datasets demonstreren de effectiviteit van J-Detector en laten zien hoe de interpreteerbaarheid ervan het mogelijk maakt om vooroordelen in LLM-beoordelaars te kwantificeren. Tot slot analyseren we belangrijke factoren die de detecteerbaarheid van LLM-gegenereerde beoordelingen beïnvloeden en valideren we de praktische bruikbaarheid van beoordelingsdetectie in realistische scenario's.
English
Large Language Model (LLM)-based judgments leverage powerful LLMs to efficiently evaluate candidate content and provide judgment scores. However, the inherent biases and vulnerabilities of LLM-generated judgments raise concerns, underscoring the urgent need for distinguishing them in sensitive scenarios like academic peer reviewing. In this work, we propose and formalize the task of judgment detection and systematically investigate the detectability of LLM-generated judgments. Unlike LLM-generated text detection, judgment detection relies solely on judgment scores and candidates, reflecting real-world scenarios where textual feedback is often unavailable in the detection process. Our preliminary analysis shows that existing LLM-generated text detection methods perform poorly given their incapability to capture the interaction between judgment scores and candidate content -- an aspect crucial for effective judgment detection. Inspired by this, we introduce J-Detector, a lightweight and transparent neural detector augmented with explicitly extracted linguistic and LLM-enhanced features to link LLM judges' biases with candidates' properties for accurate detection. Experiments across diverse datasets demonstrate the effectiveness of J-Detector and show how its interpretability enables quantifying biases in LLM judges. Finally, we analyze key factors affecting the detectability of LLM-generated judgments and validate the practical utility of judgment detection in real-world scenarios.
PDF282October 1, 2025