¿Quién es tu juez? Sobre la detectabilidad de los juicios generados por modelos de lenguaje grandes
Who's Your Judge? On the Detectability of LLM-Generated Judgments
September 29, 2025
Autores: Dawei Li, Zhen Tan, Chengshuai Zhao, Bohan Jiang, Baixiang Huang, Pingchuan Ma, Abdullah Alnaibari, Kai Shu, Huan Liu
cs.AI
Resumen
Los juicios basados en Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) aprovechan el poder de estos modelos para evaluar de manera eficiente contenido candidato y proporcionar puntuaciones de juicio. Sin embargo, los sesgos y vulnerabilidades inherentes a los juicios generados por LLM generan preocupación, destacando la necesidad urgente de distinguirlos en escenarios sensibles, como la revisión por pares académica. En este trabajo, proponemos y formalizamos la tarea de detección de juicios e investigamos sistemáticamente la detectabilidad de los juicios generados por LLM. A diferencia de la detección de texto generado por LLM, la detección de juicios se basa únicamente en las puntuaciones de juicio y los candidatos, reflejando escenarios del mundo real donde la retroalimentación textual a menudo no está disponible en el proceso de detección. Nuestro análisis preliminar muestra que los métodos existentes de detección de texto generado por LLM tienen un rendimiento deficiente debido a su incapacidad para capturar la interacción entre las puntuaciones de juicio y el contenido candidato, un aspecto crucial para una detección efectiva de juicios. Inspirados por esto, presentamos J-Detector, un detector neuronal ligero y transparente, aumentado con características lingüísticas explícitamente extraídas y mejoradas por LLM, para vincular los sesgos de los jueces LLM con las propiedades de los candidatos y lograr una detección precisa. Los experimentos en diversos conjuntos de datos demuestran la efectividad de J-Detector y muestran cómo su interpretabilidad permite cuantificar los sesgos en los jueces LLM. Finalmente, analizamos los factores clave que afectan la detectabilidad de los juicios generados por LLM y validamos la utilidad práctica de la detección de juicios en escenarios del mundo real.
English
Large Language Model (LLM)-based judgments leverage powerful LLMs to
efficiently evaluate candidate content and provide judgment scores. However,
the inherent biases and vulnerabilities of LLM-generated judgments raise
concerns, underscoring the urgent need for distinguishing them in sensitive
scenarios like academic peer reviewing. In this work, we propose and formalize
the task of judgment detection and systematically investigate the detectability
of LLM-generated judgments. Unlike LLM-generated text detection, judgment
detection relies solely on judgment scores and candidates, reflecting
real-world scenarios where textual feedback is often unavailable in the
detection process. Our preliminary analysis shows that existing LLM-generated
text detection methods perform poorly given their incapability to capture the
interaction between judgment scores and candidate content -- an aspect crucial
for effective judgment detection. Inspired by this, we introduce
J-Detector, a lightweight and transparent neural detector augmented
with explicitly extracted linguistic and LLM-enhanced features to link LLM
judges' biases with candidates' properties for accurate detection. Experiments
across diverse datasets demonstrate the effectiveness of J-Detector
and show how its interpretability enables quantifying biases in LLM judges.
Finally, we analyze key factors affecting the detectability of LLM-generated
judgments and validate the practical utility of judgment detection in
real-world scenarios.