El Montón: Un Conjunto de Datos de Código Multilingüe Libre de Contaminación para Evaluar Modelos de Lenguaje Grandes.

Resumen

El reciente aumento en la popularidad de los grandes modelos de lenguaje ha impulsado el desarrollo de extensos conjuntos de datos de código necesarios para entrenarlos. Esto ha dejado un código limitado disponible para la recopilación y uso en la investigación posterior de comportamientos específicos, o la evaluación de grandes modelos de lenguaje sin sufrir contaminación de datos. Para abordar este problema, lanzamos The Heap, un extenso conjunto de datos multilingüe que abarca 57 lenguajes de programación que ha sido deduplicado con respecto a otros conjuntos de datos abiertos de código, lo que permite a los investigadores llevar a cabo evaluaciones justas de grandes modelos de lenguaje sin una sobrecarga significativa de limpieza de datos.

English

The recent rise in the popularity of large language models has spurred the development of extensive code datasets needed to train them. This has left limited code available for collection and use in the downstream investigation of specific behaviors, or evaluation of large language models without suffering from data contamination. To address this problem, we release The Heap, a large multilingual dataset covering 57 programming languages that has been deduplicated with respect to other open datasets of code, enabling researchers to conduct fair evaluations of large language models without significant data cleaning overhead.