Präferenzleckage: Ein Kontaminationsproblem bei LLM-als-Richter

papers.abstract

Große Sprachmodelle (LLMs) als Richter und die auf LLM basierende Datensynthese sind zwei grundlegende, durch LLM angetriebene Methoden zur Datenannotation in der Modellentwicklung. Obwohl ihre Kombination die Effizienz des Modelltrainings und der -bewertung signifikant verbessert, wurde bisher wenig Aufmerksamkeit auf die potenzielle Kontamination durch dieses neue Modellentwicklungsparadigma gelegt. In dieser Arbeit decken wir Präferenz-Leakage auf, ein Kontaminationsproblem in LLM-als-Richter verursacht durch die Verwandtschaft zwischen den synthetischen Datengeneratoren und LLM-basierten Evaluatoren. Um dieses Problem zu untersuchen, definieren wir zunächst drei gängige Verwandtschaften zwischen Datengenerator-LLM und Richter-LLM: dieselbes Modell, eine Vererbungsbeziehung und Zugehörigkeit zur selben Modellfamilie. Durch umfangreiche Experimente bestätigen wir empirisch die Voreingenommenheit der Richter gegenüber ihren verwandten Schülermodellen, verursacht durch Präferenz-Leakage über mehrere LLM-Baselines und -Benchmarks hinweg. Weitere Analysen legen nahe, dass Präferenz-Leakage ein weit verbreitetes Problem ist, das im Vergleich zu zuvor identifizierten Voreingenommenheiten in LLM-als-Richter-Szenarien schwerer zu erkennen ist. All diese Erkenntnisse deuten darauf hin, dass Präferenz-Leakage ein weit verbreitetes und herausforderndes Problem im Bereich LLM-als-Richter ist. Wir veröffentlichen alle Codes und Daten unter: https://github.com/David-Li0406/Preference-Leakage.

English

Large Language Models (LLMs) as judges and LLM-based data synthesis have emerged as two fundamental LLM-driven data annotation methods in model development. While their combination significantly enhances the efficiency of model training and evaluation, little attention has been given to the potential contamination brought by this new model development paradigm. In this work, we expose preference leakage, a contamination problem in LLM-as-a-judge caused by the relatedness between the synthetic data generators and LLM-based evaluators. To study this issue, we first define three common relatednesses between data generator LLM and judge LLM: being the same model, having an inheritance relationship, and belonging to the same model family. Through extensive experiments, we empirically confirm the bias of judges towards their related student models caused by preference leakage across multiple LLM baselines and benchmarks. Further analysis suggests that preference leakage is a pervasive issue that is harder to detect compared to previously identified biases in LLM-as-a-judge scenarios. All of these findings imply that preference leakage is a widespread and challenging problem in the area of LLM-as-a-judge. We release all codes and data at: https://github.com/David-Li0406/Preference-Leakage.

Präferenzleckage: Ein Kontaminationsproblem bei LLM-als-Richter

Preference Leakage: A Contamination Problem in LLM-as-a-judge

papers.abstract

Support