Chi è il Tuo Giudice? Sulla Rilevabilità dei Giudizi Generati da Modelli Linguistici di Grande Dimensione
Who's Your Judge? On the Detectability of LLM-Generated Judgments
September 29, 2025
Autori: Dawei Li, Zhen Tan, Chengshuai Zhao, Bohan Jiang, Baixiang Huang, Pingchuan Ma, Abdullah Alnaibari, Kai Shu, Huan Liu
cs.AI
Abstract
I giudizi basati su Large Language Model (LLM) sfruttano potenti LLM per valutare in modo efficiente i contenuti candidati e fornire punteggi di giudizio. Tuttavia, i pregiudizi intrinseci e le vulnerabilità dei giudizi generati da LLM sollevano preoccupazioni, sottolineando la necessità urgente di distinguerli in scenari sensibili come la revisione accademica tra pari. In questo lavoro, proponiamo e formalizziamo il compito di rilevamento dei giudizi e investigiamo sistematicamente la rilevabilità dei giudizi generati da LLM. A differenza del rilevamento di testo generato da LLM, il rilevamento dei giudizi si basa esclusivamente sui punteggi di giudizio e sui candidati, riflettendo scenari reali in cui il feedback testuale è spesso assente durante il processo di rilevamento. La nostra analisi preliminare mostra che i metodi esistenti per il rilevamento di testo generato da LLM hanno prestazioni scarse a causa della loro incapacità di catturare l'interazione tra i punteggi di giudizio e il contenuto dei candidati — un aspetto cruciale per un efficace rilevamento dei giudizi. Ispirati da ciò, introduciamo J-Detector, un rilevatore neurale leggero e trasparente potenziato con caratteristiche linguistiche esplicitamente estratte e caratteristiche potenziate da LLM per collegare i pregiudizi dei giudici LLM con le proprietà dei candidati per un rilevamento accurato. Esperimenti su diversi dataset dimostrano l'efficacia di J-Detector e mostrano come la sua interpretabilità consenta di quantificare i pregiudizi nei giudici LLM. Infine, analizziamo i fattori chiave che influenzano la rilevabilità dei giudizi generati da LLM e validiamo l'utilità pratica del rilevamento dei giudizi in scenari reali.
English
Large Language Model (LLM)-based judgments leverage powerful LLMs to
efficiently evaluate candidate content and provide judgment scores. However,
the inherent biases and vulnerabilities of LLM-generated judgments raise
concerns, underscoring the urgent need for distinguishing them in sensitive
scenarios like academic peer reviewing. In this work, we propose and formalize
the task of judgment detection and systematically investigate the detectability
of LLM-generated judgments. Unlike LLM-generated text detection, judgment
detection relies solely on judgment scores and candidates, reflecting
real-world scenarios where textual feedback is often unavailable in the
detection process. Our preliminary analysis shows that existing LLM-generated
text detection methods perform poorly given their incapability to capture the
interaction between judgment scores and candidate content -- an aspect crucial
for effective judgment detection. Inspired by this, we introduce
J-Detector, a lightweight and transparent neural detector augmented
with explicitly extracted linguistic and LLM-enhanced features to link LLM
judges' biases with candidates' properties for accurate detection. Experiments
across diverse datasets demonstrate the effectiveness of J-Detector
and show how its interpretability enables quantifying biases in LLM judges.
Finally, we analyze key factors affecting the detectability of LLM-generated
judgments and validate the practical utility of judgment detection in
real-world scenarios.