El Montón: Un Conjunto de Datos de Código Multilingüe Libre de Contaminación para Evaluar Modelos de Lenguaje Grandes.
The Heap: A Contamination-Free Multilingual Code Dataset for Evaluating Large Language Models
January 16, 2025
Autores: Jonathan Katzy, Razvan Mihai Popescu, Arie van Deursen, Maliheh Izadi
cs.AI
Resumen
El reciente aumento en la popularidad de los grandes modelos de lenguaje ha impulsado el desarrollo de extensos conjuntos de datos de código necesarios para entrenarlos. Esto ha dejado un código limitado disponible para la recopilación y uso en la investigación posterior de comportamientos específicos, o la evaluación de grandes modelos de lenguaje sin sufrir contaminación de datos. Para abordar este problema, lanzamos The Heap, un extenso conjunto de datos multilingüe que abarca 57 lenguajes de programación que ha sido deduplicado con respecto a otros conjuntos de datos abiertos de código, lo que permite a los investigadores llevar a cabo evaluaciones justas de grandes modelos de lenguaje sin una sobrecarga significativa de limpieza de datos.
English
The recent rise in the popularity of large language models has spurred the
development of extensive code datasets needed to train them. This has left
limited code available for collection and use in the downstream investigation
of specific behaviors, or evaluation of large language models without suffering
from data contamination. To address this problem, we release The Heap, a large
multilingual dataset covering 57 programming languages that has been
deduplicated with respect to other open datasets of code, enabling researchers
to conduct fair evaluations of large language models without significant data
cleaning overhead.Summary
AI-Generated Summary