ChatPaper.aiChatPaper

Arctic-SnowCoder: Het ontrafelen van hoogwaardige data in codepretraining

Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining

September 3, 2024
Auteurs: Yuxiang Wei, Hojae Han, Rajhans Samdani
cs.AI

Samenvatting

Recente studies tonen steeds vaker aan dat hoogwaardige data cruciaal is voor effectieve voorafgaande training van taalmodelen. De precieze definitie van "hoogwaardig" blijft echter onderbelicht. Met de focus op het code-domein introduceren we Arctic-SnowCoder-1.3B, een data-efficiënt basiscodemodel dat vooraf is getraind op 555B tokens via drie fasen van progressief verfijnde data: (1) algemene voorafgaande training met 500B standaardkwaliteit code-tokens, voorbewerkt door basis filtering, deduplicatie en ontgifting, (2) voortgezette training met 50B hoogwaardige tokens, geselecteerd uit fase één door een BERT-stijl kwaliteitsannotator die is getraind om goede code te onderscheiden van willekeurige data, met behulp van positieve voorbeelden uit hoogwaardige codebestanden, samen met instructiedata van Magicoder en StarCoder2-Instruct, en (3) verbeterde training met 5B synthetische data gegenereerd door Llama-3.1-70B met fase twee data als zaden, waarbij de Magicoder-benadering is aangepast voor voorafgaande training. Ondanks de beperkte dataset waarop het is getraind, behaalt Arctic-SnowCoder state-of-the-art prestaties op BigCodeBench, een codeerbenchmark die zich richt op praktische en uitdagende programmeertaken, vergeleken met vergelijkbaar grote modellen die zijn getraind op niet meer dan 1T tokens, en overtreft het Phi-1.5-1.3B met 36%. Op alle geëvalueerde benchmarks overtreft Arctic-SnowCoder-1.3B StarCoderBase-3B, dat is getraind op 1T tokens. Daarnaast evenaart het de prestaties van toonaangevende kleine basiscodemodellen die zijn getraind op biljoenen tokens. Arctic-SnowCoder-1.3B overtreft bijvoorbeeld StarCoder2-3B, getraind op meer dan 3.3T tokens, op HumanEval+, een benchmark die functieniveau codegeneratie evalueert, en blijft competitief op BigCodeBench. Onze evaluatie biedt een uitgebreide analyse die verschillende ontwerpkeuzes voor Arctic-SnowCoder rechtvaardigt. Het belangrijkste is dat we ontdekken dat de sleutel tot hoogwaardige data de afstemming is op de verdeling van downstream toepassingen.
English
Recent studies have been increasingly demonstrating that high-quality data is crucial for effective pretraining of language models. However, the precise definition of "high-quality" remains underexplored. Focusing on the code domain, we introduce Arctic-SnowCoder-1.3B, a data-efficient base code model pretrained on 555B tokens through three phases of progressively refined data: (1) general pretraining with 500B standard-quality code tokens, preprocessed through basic filtering, deduplication, and decontamination, (2) continued pretraining with 50B high-quality tokens, selected from phase one by a BERT-style quality annotator trained to distinguish good code from random data, using positive examples drawn from high-quality code files, along with instruction data from Magicoder and StarCoder2-Instruct, and (3) enhanced pretraining with 5B synthetic data created by Llama-3.1-70B using phase two data as seeds, adapting the Magicoder approach for pretraining. Despite being trained on a limited dataset, Arctic-SnowCoder achieves state-of-the-art performance on BigCodeBench, a coding benchmark focusing on practical and challenging programming tasks, compared to similarly sized models trained on no more than 1T tokens, outperforming Phi-1.5-1.3B by 36%. Across all evaluated benchmarks, Arctic-SnowCoder-1.3B beats StarCoderBase-3B pretrained on 1T tokens. Additionally, it matches the performance of leading small base code models trained on trillions of tokens. For example, Arctic-SnowCoder-1.3B surpasses StarCoder2-3B, pretrained on over 3.3T tokens, on HumanEval+, a benchmark that evaluates function-level code generation, and remains competitive on BigCodeBench. Our evaluation presents a comprehensive analysis justifying various design choices for Arctic-SnowCoder. Most importantly, we find that the key to high-quality data is its alignment with the distribution of downstream applications.

Summary

AI-Generated Summary

PDF192November 16, 2024