Wer ist Ihr Richter? Zur Erkennbarkeit von LLM-generierten Urteilen
Who's Your Judge? On the Detectability of LLM-Generated Judgments
September 29, 2025
papers.authors: Dawei Li, Zhen Tan, Chengshuai Zhao, Bohan Jiang, Baixiang Huang, Pingchuan Ma, Abdullah Alnaibari, Kai Shu, Huan Liu
cs.AI
papers.abstract
Urteile auf Basis von Large Language Models (LLMs) nutzen die Leistungsfähigkeit von LLMs, um Kandidateninhalte effizient zu bewerten und Bewertungsscores zu liefern. Allerdings wecken die inhärenten Verzerrungen und Schwächen von LLM-generierten Urteilen Bedenken, was die dringende Notwendigkeit unterstreicht, sie in sensiblen Szenarien wie der akademischen Begutachtung zu unterscheiden. In dieser Arbeit schlagen wir die Aufgabe der Urteilsdetektion vor und formalisieren sie, während wir die Erkennbarkeit von LLM-generierten Urteilen systematisch untersuchen. Im Gegensatz zur Detektion von LLM-generierten Texten stützt sich die Urteilsdetektion ausschließlich auf Bewertungsscores und Kandidaten, was reale Szenarien widerspiegelt, in denen textuelles Feedback im Detektionsprozess oft nicht verfügbar ist. Unsere vorläufige Analyse zeigt, dass bestehende Methoden zur Detektion von LLM-generierten Texten schlecht abschneiden, da sie die Interaktion zwischen Bewertungsscores und Kandidateninhalten nicht erfassen können – ein Aspekt, der für eine effektive Urteilsdetektion entscheidend ist. Inspiriert davon führen wir J-Detector ein, einen leichten und transparenten neuronalen Detektor, der mit explizit extrahierten linguistischen und LLM-verstärkten Merkmalen angereichert ist, um die Verzerrungen von LLM-Bewertern mit den Eigenschaften der Kandidaten zu verknüpfen und so eine präzise Detektion zu ermöglichen. Experimente über diverse Datensätze demonstrieren die Wirksamkeit von J-Detector und zeigen, wie seine Interpretierbarkeit die Quantifizierung von Verzerrungen in LLM-Bewertern ermöglicht. Abschließend analysieren wir Schlüsselfaktoren, die die Erkennbarkeit von LLM-generierten Urteilen beeinflussen, und validieren den praktischen Nutzen der Urteilsdetektion in realen Szenarien.
English
Large Language Model (LLM)-based judgments leverage powerful LLMs to
efficiently evaluate candidate content and provide judgment scores. However,
the inherent biases and vulnerabilities of LLM-generated judgments raise
concerns, underscoring the urgent need for distinguishing them in sensitive
scenarios like academic peer reviewing. In this work, we propose and formalize
the task of judgment detection and systematically investigate the detectability
of LLM-generated judgments. Unlike LLM-generated text detection, judgment
detection relies solely on judgment scores and candidates, reflecting
real-world scenarios where textual feedback is often unavailable in the
detection process. Our preliminary analysis shows that existing LLM-generated
text detection methods perform poorly given their incapability to capture the
interaction between judgment scores and candidate content -- an aspect crucial
for effective judgment detection. Inspired by this, we introduce
J-Detector, a lightweight and transparent neural detector augmented
with explicitly extracted linguistic and LLM-enhanced features to link LLM
judges' biases with candidates' properties for accurate detection. Experiments
across diverse datasets demonstrate the effectiveness of J-Detector
and show how its interpretability enables quantifying biases in LLM judges.
Finally, we analyze key factors affecting the detectability of LLM-generated
judgments and validate the practical utility of judgment detection in
real-world scenarios.