Quem é o Seu Juiz? Sobre a Detectabilidade de Julgamentos Gerados por Modelos de Linguagem de Grande Escala
Who's Your Judge? On the Detectability of LLM-Generated Judgments
September 29, 2025
Autores: Dawei Li, Zhen Tan, Chengshuai Zhao, Bohan Jiang, Baixiang Huang, Pingchuan Ma, Abdullah Alnaibari, Kai Shu, Huan Liu
cs.AI
Resumo
Julgamentos baseados em Modelos de Linguagem de Grande Escala (LLMs) aproveitam o poder desses modelos para avaliar eficientemente conteúdos candidatos e fornecer pontuações de julgamento. No entanto, os vieses inerentes e as vulnerabilidades dos julgamentos gerados por LLMs levantam preocupações, destacando a necessidade urgente de distingui-los em cenários sensíveis, como a revisão por pares acadêmica. Neste trabalho, propomos e formalizamos a tarefa de detecção de julgamentos e investigamos sistematicamente a detectabilidade de julgamentos gerados por LLMs. Diferente da detecção de textos gerados por LLMs, a detecção de julgamentos depende apenas das pontuações de julgamento e dos conteúdos candidatos, refletindo cenários do mundo real onde o feedback textual muitas vezes não está disponível no processo de detecção. Nossa análise preliminar mostra que os métodos existentes de detecção de textos gerados por LLMs têm desempenho ruim devido à sua incapacidade de capturar a interação entre as pontuações de julgamento e o conteúdo candidato — um aspecto crucial para uma detecção eficaz de julgamentos. Inspirados por isso, introduzimos o J-Detector, um detector neural leve e transparente, aprimorado com características linguísticas explicitamente extraídas e características melhoradas por LLMs, para vincular os vieses dos juízes LLMs às propriedades dos candidatos, permitindo uma detecção precisa. Experimentos em diversos conjuntos de dados demonstram a eficácia do J-Detector e mostram como sua interpretabilidade permite quantificar os vieses nos juízes LLMs. Por fim, analisamos os principais fatores que afetam a detectabilidade de julgamentos gerados por LLMs e validamos a utilidade prática da detecção de julgamentos em cenários do mundo real.
English
Large Language Model (LLM)-based judgments leverage powerful LLMs to
efficiently evaluate candidate content and provide judgment scores. However,
the inherent biases and vulnerabilities of LLM-generated judgments raise
concerns, underscoring the urgent need for distinguishing them in sensitive
scenarios like academic peer reviewing. In this work, we propose and formalize
the task of judgment detection and systematically investigate the detectability
of LLM-generated judgments. Unlike LLM-generated text detection, judgment
detection relies solely on judgment scores and candidates, reflecting
real-world scenarios where textual feedback is often unavailable in the
detection process. Our preliminary analysis shows that existing LLM-generated
text detection methods perform poorly given their incapability to capture the
interaction between judgment scores and candidate content -- an aspect crucial
for effective judgment detection. Inspired by this, we introduce
J-Detector, a lightweight and transparent neural detector augmented
with explicitly extracted linguistic and LLM-enhanced features to link LLM
judges' biases with candidates' properties for accurate detection. Experiments
across diverse datasets demonstrate the effectiveness of J-Detector
and show how its interpretability enables quantifying biases in LLM judges.
Finally, we analyze key factors affecting the detectability of LLM-generated
judgments and validate the practical utility of judgment detection in
real-world scenarios.