ChatPaper.aiChatPaper

La Contaminación de Datos Puede Traspasar Barreras Lingüísticas

Data Contamination Can Cross Language Barriers

June 19, 2024
Autores: Feng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang
cs.AI

Resumen

La opacidad en el desarrollo de grandes modelos de lenguaje (LLMs, por sus siglas en inglés) está generando una creciente preocupación sobre la posible contaminación de los benchmarks públicos en los datos de preentrenamiento. Los métodos existentes para detectar contaminación suelen basarse en la superposición de texto entre los datos de entrenamiento y evaluación, lo cual puede ser demasiado superficial para reflejar formas más profundas de contaminación. En este artículo, primero presentamos una forma de contaminación multilingüe que infla el rendimiento de los LLMs mientras evade los métodos de detección actuales, inyectada deliberadamente al sobreajustar los LLMs en versiones traducidas de los conjuntos de prueba de benchmarks. Luego, proponemos enfoques basados en generalización para desenmascarar dicha contaminación profundamente oculta. Específicamente, examinamos el cambio en el rendimiento del LLM después de modificar el benchmark original reemplazando las opciones de respuesta incorrectas con respuestas correctas de otras preguntas. Los modelos contaminados difícilmente pueden generalizar a situaciones más sencillas, donde las opciones incorrectas pueden ni siquiera estar equivocadas, ya que todas las opciones son correctas en su memorización. Los resultados experimentales demuestran que la contaminación multilingüe puede engañar fácilmente a los métodos de detección existentes, pero no al nuestro. Además, discutimos el uso potencial de la contaminación multilingüe para interpretar los mecanismos de funcionamiento de los LLMs y para mejorar las capacidades multilingües de los LLMs después del entrenamiento. El código y el conjunto de datos que utilizamos pueden obtenerse en https://github.com/ShangDataLab/Deep-Contam.
English
The opacity in developing large language models (LLMs) is raising growing concerns about the potential contamination of public benchmarks in the pre-training data. Existing contamination detection methods are typically based on the text overlap between training and evaluation data, which can be too superficial to reflect deeper forms of contamination. In this paper, we first present a cross-lingual form of contamination that inflates LLMs' performance while evading current detection methods, deliberately injected by overfitting LLMs on the translated versions of benchmark test sets. Then, we propose generalization-based approaches to unmask such deeply concealed contamination. Specifically, we examine the LLM's performance change after modifying the original benchmark by replacing the false answer choices with correct ones from other questions. Contaminated models can hardly generalize to such easier situations, where the false choices can be not even wrong, as all choices are correct in their memorization. Experimental results demonstrate that cross-lingual contamination can easily fool existing detection methods, but not ours. In addition, we discuss the potential utilization of cross-lingual contamination in interpreting LLMs' working mechanisms and in post-training LLMs for enhanced multilingual capabilities. The code and dataset we use can be obtained from https://github.com/ShangDataLab/Deep-Contam.

Summary

AI-Generated Summary

PDF83November 29, 2024