Fuga de preferencias: Un problema de contaminación en LLM-como-juez

Resumen

Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) como jueces y la síntesis de datos basada en LLM han surgido como dos métodos fundamentales de anotación de datos impulsados por LLM en el desarrollo de modelos. Aunque su combinación mejora significativamente la eficiencia del entrenamiento y la evaluación del modelo, se ha prestado poca atención a la posible contaminación que podría traer este nuevo paradigma de desarrollo de modelos. En este trabajo, exponemos la fuga de preferencias, un problema de contaminación en LLM-como-juez causado por la relación entre los generadores de datos sintéticos y los evaluadores basados en LLM. Para estudiar este problema, primero definimos tres tipos comunes de relaciones entre el LLM generador de datos y el LLM juez: ser el mismo modelo, tener una relación de herencia y pertenecer a la misma familia de modelos. A través de experimentos extensos, confirmamos empíricamente el sesgo de los jueces hacia sus modelos relacionados causado por la fuga de preferencias en múltiples LLM de referencia y puntos de comparación. Un análisis adicional sugiere que la fuga de preferencias es un problema generalizado que es más difícil de detectar en comparación con los sesgos previamente identificados en escenarios de LLM-como-juez. Todos estos hallazgos implican que la fuga de preferencias es un problema extendido y desafiante en el área de LLM-como-juez. Ponemos a disposición todos los códigos y datos en: https://github.com/David-Li0406/Preference-Leakage.

English

Large Language Models (LLMs) as judges and LLM-based data synthesis have emerged as two fundamental LLM-driven data annotation methods in model development. While their combination significantly enhances the efficiency of model training and evaluation, little attention has been given to the potential contamination brought by this new model development paradigm. In this work, we expose preference leakage, a contamination problem in LLM-as-a-judge caused by the relatedness between the synthetic data generators and LLM-based evaluators. To study this issue, we first define three common relatednesses between data generator LLM and judge LLM: being the same model, having an inheritance relationship, and belonging to the same model family. Through extensive experiments, we empirically confirm the bias of judges towards their related student models caused by preference leakage across multiple LLM baselines and benchmarks. Further analysis suggests that preference leakage is a pervasive issue that is harder to detect compared to previously identified biases in LLM-as-a-judge scenarios. All of these findings imply that preference leakage is a widespread and challenging problem in the area of LLM-as-a-judge. We release all codes and data at: https://github.com/David-Li0406/Preference-Leakage.

Fuga de preferencias: Un problema de contaminación en LLM-como-juez

Preference Leakage: A Contamination Problem in LLM-as-a-judge

Resumen

Support