ChatPaper.aiChatPaper

A Contaminação de Dados Pode Ultrapassar Barreiras Linguísticas

Data Contamination Can Cross Language Barriers

June 19, 2024
Autores: Feng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang
cs.AI

Resumo

A opacidade no desenvolvimento de grandes modelos de linguagem (LLMs) está levantando crescentes preocupações sobre a contaminação potencial de benchmarks públicos nos dados de pré-treinamento. Os métodos existentes de detecção de contaminação geralmente se baseiam na sobreposição de texto entre os dados de treinamento e avaliação, o que pode ser muito superficial para refletir formas mais profundas de contaminação. Neste artigo, primeiro apresentamos uma forma de contaminação cruzada que infla o desempenho dos LLMs enquanto evita os métodos de detecção atuais, deliberadamente injetada pelo overfitting dos LLMs nas versões traduzidas dos conjuntos de testes de referência. Em seguida, propomos abordagens baseadas em generalização para desmascarar essa contaminação profundamente oculta. Especificamente, examinamos a mudança de desempenho do LLM após modificar o benchmark original substituindo as opções de resposta falsas por corretas de outras perguntas. Modelos contaminados dificilmente conseguem generalizar para tais situações mais fáceis, onde as escolhas falsas podem nem mesmo estar erradas, já que todas as escolhas estão corretas em sua memorização. Resultados experimentais demonstram que a contaminação cruzada pode facilmente enganar os métodos de detecção existentes, mas não os nossos. Além disso, discutimos a potencial utilização da contaminação cruzada na interpretação dos mecanismos de funcionamento dos LLMs e no pós-treinamento dos LLMs para capacidades multilíngues aprimoradas. O código e o conjunto de dados que utilizamos podem ser obtidos em https://github.com/ShangDataLab/Deep-Contam.
English
The opacity in developing large language models (LLMs) is raising growing concerns about the potential contamination of public benchmarks in the pre-training data. Existing contamination detection methods are typically based on the text overlap between training and evaluation data, which can be too superficial to reflect deeper forms of contamination. In this paper, we first present a cross-lingual form of contamination that inflates LLMs' performance while evading current detection methods, deliberately injected by overfitting LLMs on the translated versions of benchmark test sets. Then, we propose generalization-based approaches to unmask such deeply concealed contamination. Specifically, we examine the LLM's performance change after modifying the original benchmark by replacing the false answer choices with correct ones from other questions. Contaminated models can hardly generalize to such easier situations, where the false choices can be not even wrong, as all choices are correct in their memorization. Experimental results demonstrate that cross-lingual contamination can easily fool existing detection methods, but not ours. In addition, we discuss the potential utilization of cross-lingual contamination in interpreting LLMs' working mechanisms and in post-training LLMs for enhanced multilingual capabilities. The code and dataset we use can be obtained from https://github.com/ShangDataLab/Deep-Contam.
PDF83November 29, 2024