OpenCoder: Het Open Kookboek voor Topklasse Code Large Language ModelsOpenCoder: The Open Cookbook for Top-Tier Code Large Language Models
Grote taalmodellen (LLM's) voor code zijn onmisbaar geworden in diverse domeinen, waaronder codegeneratie, redeneertaken en agentsystemen. Hoewel open-access code-LLM's steeds meer de prestatieniveaus van propriëtaire modellen benaderen, blijven hoogwaardige code-LLM's die geschikt zijn voor rigoureus wetenschappelijk onderzoek, met name modellen met reproduceerbare dataverwerkingspijplijnen en transparante trainingsprotocollen, schaars. Deze schaarste is te wijten aan diverse uitdagingen, waaronder beperkte middelen, ethische overwegingen en het concurrentievoordeel van het geheimhouden van geavanceerde modellen. Om dit gat te dichten, introduceren we OpenCoder, een topniveau code-LLM dat niet alleen prestaties bereikt die vergelijkbaar zijn met toonaangevende modellen, maar ook dient als een "open kookboek" voor de onderzoeksgemeenschap. In tegenstelling tot de meeste eerdere inspanningen, geven we niet alleen modelgewichten en inferentiecode vrij, maar ook de reproduceerbare trainingsdata, de complete dataverwerkingspijplijn, rigoureuze experimentele ablatie-resultaten en gedetailleerde trainingsprotocollen voor open wetenschappelijk onderzoek. Door deze uitgebreide release identificeren we de sleutelingrediënten voor het bouwen van een topniveau code-LLM: (1) code-geoptimaliseerde heuristische regels voor datareiniging en methoden voor datadeduplicatie, (2) het meenemen van aan code gerelateerde tekstcorpora en (3) hoogwaardige synthetische data in zowel de annealing- als supervised fine-tuning-fases. Door dit niveau van openheid te bieden, streven we ernaar de toegang tot alle aspecten van een topniveau code-LLM te verbreden, waarbij OpenCoder dient als zowel een krachtig model als een open fundament om onderzoek te versnellen en reproduceerbare vooruitgang in code-AI mogelijk te maken.