Razonamiento Comparativo Colectivo: Desbloqueando Evaluaciones Integrales para LLM-como-Juez
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge
February 18, 2025
Autores: Qiyuan Zhang, Yufei Wang, Yuxin Jiang, Liangyou Li, Chuhan Wu, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma
cs.AI
Resumen
LLM-as-a-Judge, que genera juicios de cadena de pensamiento (CoT, por sus siglas en inglés), se ha convertido en un método de autoevaluación ampliamente adoptado. Sin embargo, su fiabilidad se ve comprometida por la incapacidad del razonamiento CoT para capturar detalles completos y profundos, lo que a menudo conduce a resultados incompletos. Los métodos existentes se basan principalmente en votación mayoritaria o en la expansión de criterios, lo cual es insuficiente para abordar la limitación del CoT. Proponemos la Evaluación Comparativa Basada en la Multitud, que introduce respuestas adicionales de la multitud para compararlas con las respuestas candidatas, exponiendo así detalles más profundos y completos dentro de estas respuestas. Este proceso guía eficazmente a LLM-as-a-Judge para proporcionar un juicio CoT más detallado. Experimentos extensos demuestran que nuestro enfoque mejora la fiabilidad de la evaluación, logrando una ganancia promedio de precisión del 6.7% en cinco benchmarks. Además, nuestro método produce CoTs de mayor calidad que facilitan la destilación de juicios y muestran un rendimiento superior en el muestreo de rechazo para el ajuste fino supervisado (SFT), denominado muestreo de rechazo de la multitud, lo que permite un SFT más eficiente. Nuestro análisis confirma que los CoTs generados por nuestro método son más completos y de mayor calidad, y que la precisión de la evaluación mejora a medida que aumentan las escalas de inferencia.
English
LLM-as-a-Judge, which generates chain-of-thought (CoT) judgments, has become
a widely adopted auto-evaluation method. However, its reliability is
compromised by the CoT reasoning's inability to capture comprehensive and
deeper details, often leading to incomplete outcomes. Existing methods mainly
rely on majority voting or criteria expansion, which is insufficient to address
the limitation in CoT. We propose Crowd-based Comparative Evaluation, which
introduces additional crowd responses to compare with the candidate responses,
thereby exposing deeper and more comprehensive details within the candidate
responses. This process effectively guides LLM-as-a-Judge to provide a more
detailed CoT judgment. Extensive experiments demonstrate that our approach
enhances evaluation reliability, achieving an average accuracy gain of 6.7%
across five benchmarks. Moreover, our method produces higher-quality CoTs that
facilitate judge distillation and exhibit superior performance in rejection
sampling for supervised fine-tuning (SFT), referred to as crowd rejection
sampling, thereby enabling more efficient SFT. Our analysis confirms that CoTs
generated by ours are more comprehensive and of higher quality, and evaluation
accuracy improves as inference scales.Summary
AI-Generated Summary