¿Codificar o no codificar? Explorando el impacto del código en el preentrenamiento.

Resumen

Incluir código en la mezcla de datos de pre-entrenamiento, incluso para modelos no específicamente diseñados para código, se ha convertido en una práctica común en el pre-entrenamiento de LLMs. Aunque ha habido un consenso anecdótico entre los profesionales de que los datos de código desempeñan un papel vital en el rendimiento general de LLMs, solo hay trabajos limitados que analizan el impacto preciso del código en tareas no relacionadas con código. En este trabajo, investigamos sistemáticamente el impacto de los datos de código en el rendimiento general. Nos preguntamos "¿cuál es el impacto de los datos de código utilizados en el pre-entrenamiento en una amplia variedad de tareas posteriores más allá de la generación de código?". Realizamos extensas abstracciones y evaluaciones en una amplia gama de tareas de razonamiento en lenguaje natural, tareas de conocimiento del mundo, benchmarks de código y tasas de éxito de LLM como juez para modelos con tamaños que van desde 470M hasta 2.8B parámetros. En todos los escenarios, encontramos resultados consistentes de que el código es un componente crítico para la generalización mucho más allá de las tareas de codificación y las mejoras en la calidad del código tienen un impacto desproporcionado en todas las tareas. En particular, en comparación con el pre-entrenamiento solo de texto, la adición de código resulta en un aumento relativo de hasta un 8.2% en el razonamiento en lenguaje natural (NL), un 4.2% en el conocimiento del mundo, una mejora del 6.6% en las tasas de éxito generativas y un aumento de 12 veces en el rendimiento del código respectivamente. Nuestro trabajo sugiere que las inversiones en calidad de código y la preservación del código durante el pre-entrenamiento tienen impactos positivos.

English

Including code in the pre-training data mixture, even for models not specifically designed for code, has become a common practice in LLMs pre-training. While there has been anecdotal consensus among practitioners that code data plays a vital role in general LLMs' performance, there is only limited work analyzing the precise impact of code on non-code tasks. In this work, we systematically investigate the impact of code data on general performance. We ask "what is the impact of code data used in pre-training on a large variety of downstream tasks beyond code generation". We conduct extensive ablations and evaluate across a broad range of natural language reasoning tasks, world knowledge tasks, code benchmarks, and LLM-as-a-judge win-rates for models with sizes ranging from 470M to 2.8B parameters. Across settings, we find a consistent results that code is a critical building block for generalization far beyond coding tasks and improvements to code quality have an outsized impact across all tasks. In particular, compared to text-only pre-training, the addition of code results in up to relative increase of 8.2% in natural language (NL) reasoning, 4.2% in world knowledge, 6.6% improvement in generative win-rates, and a 12x boost in code performance respectively. Our work suggests investments in code quality and preserving code during pre-training have positive impacts.

¿Codificar o no codificar? Explorando el impacto del código en el preentrenamiento.

To Code, or Not To Code? Exploring Impact of Code in Pre-training

Resumen

Support