Fuite de préférence : Un problème de contamination dans LLM-en-tant-que-juge

papers.abstract

Les grands modèles de langage (LLM) en tant que juges et la synthèse de données basée sur les LLM ont émergé comme deux méthodes fondamentales d'annotation de données pilotées par les LLM dans le développement de modèles. Bien que leur combinaison améliore significativement l'efficacité de l'entraînement et de l'évaluation des modèles, peu d'attention a été accordée à la contamination potentielle induite par ce nouveau paradigme de développement de modèles. Dans ce travail, nous exposons la fuite de préférences, un problème de contamination dans les LLM en tant que juges causé par la relation entre les générateurs de données synthétiques et les évaluateurs basés sur les LLM. Pour étudier cette question, nous définissons d'abord trois types de relations communes entre le LLM générateur de données et le LLM juge : être le même modèle, avoir une relation d'héritage et appartenir à la même famille de modèles. À travers des expériences approfondies, nous confirmons empiriquement le biais des juges envers leurs modèles étudiants liés causé par la fuite de préférences à travers plusieurs références et benchmarks de LLM. Une analyse plus poussée suggère que la fuite de préférences est un problème répandu et difficile à détecter par rapport aux biais précédemment identifiés dans les scénarios de LLM en tant que juges. Toutes ces découvertes impliquent que la fuite de préférences est un problème répandu et complexe dans le domaine des LLM en tant que juges. Nous mettons à disposition tous les codes et données sur : https://github.com/David-Li0406/Preference-Leakage.

English

Large Language Models (LLMs) as judges and LLM-based data synthesis have emerged as two fundamental LLM-driven data annotation methods in model development. While their combination significantly enhances the efficiency of model training and evaluation, little attention has been given to the potential contamination brought by this new model development paradigm. In this work, we expose preference leakage, a contamination problem in LLM-as-a-judge caused by the relatedness between the synthetic data generators and LLM-based evaluators. To study this issue, we first define three common relatednesses between data generator LLM and judge LLM: being the same model, having an inheritance relationship, and belonging to the same model family. Through extensive experiments, we empirically confirm the bias of judges towards their related student models caused by preference leakage across multiple LLM baselines and benchmarks. Further analysis suggests that preference leakage is a pervasive issue that is harder to detect compared to previously identified biases in LLM-as-a-judge scenarios. All of these findings imply that preference leakage is a widespread and challenging problem in the area of LLM-as-a-judge. We release all codes and data at: https://github.com/David-Li0406/Preference-Leakage.

Fuite de préférence : Un problème de contamination dans LLM-en-tant-que-juge

Preference Leakage: A Contamination Problem in LLM-as-a-judge

papers.abstract

Support