A Contaminação de Dados Pode Ultrapassar Barreiras Linguísticas
Data Contamination Can Cross Language Barriers
June 19, 2024
Autores: Feng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang
cs.AI
Resumo
A opacidade no desenvolvimento de grandes modelos de linguagem (LLMs) está levantando crescentes preocupações sobre a contaminação potencial de benchmarks públicos nos dados de pré-treinamento. Os métodos existentes de detecção de contaminação geralmente se baseiam na sobreposição de texto entre os dados de treinamento e avaliação, o que pode ser muito superficial para refletir formas mais profundas de contaminação. Neste artigo, primeiro apresentamos uma forma de contaminação cruzada que infla o desempenho dos LLMs enquanto evita os métodos de detecção atuais, deliberadamente injetada pelo overfitting dos LLMs nas versões traduzidas dos conjuntos de testes de referência. Em seguida, propomos abordagens baseadas em generalização para desmascarar essa contaminação profundamente oculta. Especificamente, examinamos a mudança de desempenho do LLM após modificar o benchmark original substituindo as opções de resposta falsas por corretas de outras perguntas. Modelos contaminados dificilmente conseguem generalizar para tais situações mais fáceis, onde as escolhas falsas podem nem mesmo estar erradas, já que todas as escolhas estão corretas em sua memorização. Resultados experimentais demonstram que a contaminação cruzada pode facilmente enganar os métodos de detecção existentes, mas não os nossos. Além disso, discutimos a potencial utilização da contaminação cruzada na interpretação dos mecanismos de funcionamento dos LLMs e no pós-treinamento dos LLMs para capacidades multilíngues aprimoradas. O código e o conjunto de dados que utilizamos podem ser obtidos em https://github.com/ShangDataLab/Deep-Contam.
English
The opacity in developing large language models (LLMs) is raising growing
concerns about the potential contamination of public benchmarks in the
pre-training data. Existing contamination detection methods are typically based
on the text overlap between training and evaluation data, which can be too
superficial to reflect deeper forms of contamination. In this paper, we first
present a cross-lingual form of contamination that inflates LLMs' performance
while evading current detection methods, deliberately injected by overfitting
LLMs on the translated versions of benchmark test sets. Then, we propose
generalization-based approaches to unmask such deeply concealed contamination.
Specifically, we examine the LLM's performance change after modifying the
original benchmark by replacing the false answer choices with correct ones from
other questions. Contaminated models can hardly generalize to such easier
situations, where the false choices can be not even wrong, as all
choices are correct in their memorization. Experimental results demonstrate
that cross-lingual contamination can easily fool existing detection methods,
but not ours. In addition, we discuss the potential utilization of
cross-lingual contamination in interpreting LLMs' working mechanisms and in
post-training LLMs for enhanced multilingual capabilities. The code and dataset
we use can be obtained from https://github.com/ShangDataLab/Deep-Contam.