ChatPaper.aiChatPaper

Загрязнение данных может преодолевать языковые барьеры.

Data Contamination Can Cross Language Barriers

June 19, 2024
Авторы: Feng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang
cs.AI

Аннотация

Непрозрачность в разработке крупных языковых моделей (LLM) вызывает растущие опасения относительно потенциального загрязнения общедоступных бенчмарков в данных предварительного обучения. Существующие методы обнаружения загрязнения обычно основаны на перекрытии текста между обучающими и оценочными данными, что может быть слишком поверхностным для отражения более глубоких форм загрязнения. В данной статье мы впервые представляем кросс-языковую форму загрязнения, увеличивающую производительность LLM, уклоняясь от текущих методов обнаружения, преднамеренно внедренную путем переобучения LLM на переведенных версиях тестовых наборов бенчмарков. Затем мы предлагаем подходы на основе обобщения для раскрытия такого глубоко скрытого загрязнения. Конкретно, мы изучаем изменение производительности LLM после модификации исходного бенчмарка путем замены неверных вариантов ответов на правильные из других вопросов. Загрязненные модели едва могут обобщиться на такие более простые ситуации, где неверные варианты могут быть даже не неправильными, так как все варианты правильны в их запоминании. Экспериментальные результаты демонстрируют, что кросс-языковое загрязнение легко обманывает существующие методы обнаружения, но не наш. Кроме того, мы обсуждаем потенциальное использование кросс-языкового загрязнения для интерпретации механизмов работы LLM и для пост-обучения LLM с целью улучшения многоязычных возможностей. Код и набор данных, которые мы использовали, можно получить на https://github.com/ShangDataLab/Deep-Contam.
English
The opacity in developing large language models (LLMs) is raising growing concerns about the potential contamination of public benchmarks in the pre-training data. Existing contamination detection methods are typically based on the text overlap between training and evaluation data, which can be too superficial to reflect deeper forms of contamination. In this paper, we first present a cross-lingual form of contamination that inflates LLMs' performance while evading current detection methods, deliberately injected by overfitting LLMs on the translated versions of benchmark test sets. Then, we propose generalization-based approaches to unmask such deeply concealed contamination. Specifically, we examine the LLM's performance change after modifying the original benchmark by replacing the false answer choices with correct ones from other questions. Contaminated models can hardly generalize to such easier situations, where the false choices can be not even wrong, as all choices are correct in their memorization. Experimental results demonstrate that cross-lingual contamination can easily fool existing detection methods, but not ours. In addition, we discuss the potential utilization of cross-lingual contamination in interpreting LLMs' working mechanisms and in post-training LLMs for enhanced multilingual capabilities. The code and dataset we use can be obtained from https://github.com/ShangDataLab/Deep-Contam.

Summary

AI-Generated Summary

PDF83November 29, 2024