Coderen, of niet coderen? Onderzoek naar de impact van code in pre-training

Samenvatting

Het opnemen van code in de mix van pre-trainingsdata, zelfs voor modellen die niet specifiek zijn ontworpen voor code, is een gangbare praktijk geworden bij het pre-trainen van grote taalmodellen (LLMs). Hoewel er onder praktijkmensen anekdotisch consensus bestaat dat codedata een cruciale rol speelt in de prestaties van algemene LLMs, is er slechts beperkt onderzoek gedaan naar de precieze impact van code op taken die niet met code te maken hebben. In dit werk onderzoeken we systematisch de impact van codedata op de algemene prestaties. We stellen de vraag: "Wat is de impact van codedata die wordt gebruikt tijdens het pre-trainen op een grote verscheidenheid aan downstream-taken buiten codegeneratie?" We voeren uitgebreide ablatie-experimenten uit en evalueren over een breed scala aan taken, waaronder redeneertaken in natuurlijke taal, taken over wereldkennis, codebenchmarks en winpercentages van LLM-als-rechter voor modellen met een grootte variërend van 470M tot 2,8B parameters. In alle settings vinden we consistente resultaten die aantonen dat code een cruciaal bouwsteen is voor generalisatie die ver reikt buiten codetaken, en dat verbeteringen in codekwaliteit een onevenredig grote impact hebben op alle taken. In het bijzonder resulteert de toevoeging van code, vergeleken met pre-trainen op alleen tekst, in een relatieve toename van tot wel 8,2% in redeneren in natuurlijke taal (NL), 4,2% in wereldkennis, 6,6% verbetering in generatieve winpercentages, en een 12-voudige boost in codeprestaties. Ons werk suggereert dat investeringen in codekwaliteit en het behouden van code tijdens het pre-trainen positieve effecten hebben.

English

Including code in the pre-training data mixture, even for models not specifically designed for code, has become a common practice in LLMs pre-training. While there has been anecdotal consensus among practitioners that code data plays a vital role in general LLMs' performance, there is only limited work analyzing the precise impact of code on non-code tasks. In this work, we systematically investigate the impact of code data on general performance. We ask "what is the impact of code data used in pre-training on a large variety of downstream tasks beyond code generation". We conduct extensive ablations and evaluate across a broad range of natural language reasoning tasks, world knowledge tasks, code benchmarks, and LLM-as-a-judge win-rates for models with sizes ranging from 470M to 2.8B parameters. Across settings, we find a consistent results that code is a critical building block for generalization far beyond coding tasks and improvements to code quality have an outsized impact across all tasks. In particular, compared to text-only pre-training, the addition of code results in up to relative increase of 8.2% in natural language (NL) reasoning, 4.2% in world knowledge, 6.6% improvement in generative win-rates, and a 12x boost in code performance respectively. Our work suggests investments in code quality and preserving code during pre-training have positive impacts.

Coderen, of niet coderen? Onderzoek naar de impact van code in pre-training

To Code, or Not To Code? Exploring Impact of Code in Pre-training

Samenvatting

Summary

Support

Support