Razonamiento Comparativo Colectivo: Desbloqueando Evaluaciones Integrales para LLM-como-Juez

Resumen

LLM-as-a-Judge, que genera juicios de cadena de pensamiento (CoT, por sus siglas en inglés), se ha convertido en un método de autoevaluación ampliamente adoptado. Sin embargo, su fiabilidad se ve comprometida por la incapacidad del razonamiento CoT para capturar detalles completos y profundos, lo que a menudo conduce a resultados incompletos. Los métodos existentes se basan principalmente en votación mayoritaria o en la expansión de criterios, lo cual es insuficiente para abordar la limitación del CoT. Proponemos la Evaluación Comparativa Basada en la Multitud, que introduce respuestas adicionales de la multitud para compararlas con las respuestas candidatas, exponiendo así detalles más profundos y completos dentro de estas respuestas. Este proceso guía eficazmente a LLM-as-a-Judge para proporcionar un juicio CoT más detallado. Experimentos extensos demuestran que nuestro enfoque mejora la fiabilidad de la evaluación, logrando una ganancia promedio de precisión del 6.7% en cinco benchmarks. Además, nuestro método produce CoTs de mayor calidad que facilitan la destilación de juicios y muestran un rendimiento superior en el muestreo de rechazo para el ajuste fino supervisado (SFT), denominado muestreo de rechazo de la multitud, lo que permite un SFT más eficiente. Nuestro análisis confirma que los CoTs generados por nuestro método son más completos y de mayor calidad, y que la precisión de la evaluación mejora a medida que aumentan las escalas de inferencia.

English

LLM-as-a-Judge, which generates chain-of-thought (CoT) judgments, has become a widely adopted auto-evaluation method. However, its reliability is compromised by the CoT reasoning's inability to capture comprehensive and deeper details, often leading to incomplete outcomes. Existing methods mainly rely on majority voting or criteria expansion, which is insufficient to address the limitation in CoT. We propose Crowd-based Comparative Evaluation, which introduces additional crowd responses to compare with the candidate responses, thereby exposing deeper and more comprehensive details within the candidate responses. This process effectively guides LLM-as-a-Judge to provide a more detailed CoT judgment. Extensive experiments demonstrate that our approach enhances evaluation reliability, achieving an average accuracy gain of 6.7% across five benchmarks. Moreover, our method produces higher-quality CoTs that facilitate judge distillation and exhibit superior performance in rejection sampling for supervised fine-tuning (SFT), referred to as crowd rejection sampling, thereby enabling more efficient SFT. Our analysis confirms that CoTs generated by ours are more comprehensive and of higher quality, and evaluation accuracy improves as inference scales.

Razonamiento Comparativo Colectivo: Desbloqueando Evaluaciones Integrales para LLM-como-Juez

Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge

Resumen

Support