Fuga de preferencias: Un problema de contaminación en LLM-como-juez
Preference Leakage: A Contamination Problem in LLM-as-a-judge
February 3, 2025
Autores: Dawei Li, Renliang Sun, Yue Huang, Ming Zhong, Bohan Jiang, Jiawei Han, Xiangliang Zhang, Wei Wang, Huan Liu
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) como jueces y la síntesis de datos basada en LLM han surgido como dos métodos fundamentales de anotación de datos impulsados por LLM en el desarrollo de modelos. Aunque su combinación mejora significativamente la eficiencia del entrenamiento y la evaluación del modelo, se ha prestado poca atención a la posible contaminación que podría traer este nuevo paradigma de desarrollo de modelos. En este trabajo, exponemos la fuga de preferencias, un problema de contaminación en LLM-como-juez causado por la relación entre los generadores de datos sintéticos y los evaluadores basados en LLM. Para estudiar este problema, primero definimos tres tipos comunes de relaciones entre el LLM generador de datos y el LLM juez: ser el mismo modelo, tener una relación de herencia y pertenecer a la misma familia de modelos. A través de experimentos extensos, confirmamos empíricamente el sesgo de los jueces hacia sus modelos relacionados causado por la fuga de preferencias en múltiples LLM de referencia y puntos de comparación. Un análisis adicional sugiere que la fuga de preferencias es un problema generalizado que es más difícil de detectar en comparación con los sesgos previamente identificados en escenarios de LLM-como-juez. Todos estos hallazgos implican que la fuga de preferencias es un problema extendido y desafiante en el área de LLM-como-juez. Ponemos a disposición todos los códigos y datos en: https://github.com/David-Li0406/Preference-Leakage.
English
Large Language Models (LLMs) as judges and LLM-based data synthesis have
emerged as two fundamental LLM-driven data annotation methods in model
development. While their combination significantly enhances the efficiency of
model training and evaluation, little attention has been given to the potential
contamination brought by this new model development paradigm. In this work, we
expose preference leakage, a contamination problem in LLM-as-a-judge caused by
the relatedness between the synthetic data generators and LLM-based evaluators.
To study this issue, we first define three common relatednesses between data
generator LLM and judge LLM: being the same model, having an inheritance
relationship, and belonging to the same model family. Through extensive
experiments, we empirically confirm the bias of judges towards their related
student models caused by preference leakage across multiple LLM baselines and
benchmarks. Further analysis suggests that preference leakage is a pervasive
issue that is harder to detect compared to previously identified biases in
LLM-as-a-judge scenarios. All of these findings imply that preference leakage
is a widespread and challenging problem in the area of LLM-as-a-judge. We
release all codes and data at:
https://github.com/David-Li0406/Preference-Leakage.Summary
AI-Generated Summary