Technisch Rapport: Full-Stack Fine-Tuning voor de Q Programmeertaal

Samenvatting

Hoewel grote taalmodellen steeds capabeler worden, is het nog steeds onredelijk om te verwachten dat ze uitblinken in taken die ondervertegenwoordigd zijn op het internet. Het benutten van LLM's voor gespecialiseerde toepassingen, met name in niche-programmeertalen en privédomeinen, blijft uitdagend en grotendeels onopgelost. In dit werk pakken we deze kloof aan door een uitgebreide, open-source aanpak te presenteren voor het aanpassen van LLM's aan de Q-programmeertaal, een populair hulpmiddel in kwantitatieve financiën dat veel minder aanwezig is op het internet vergeleken met Python, C, Java en andere "mainstream" talen, en daarom geen sterk punt is van algemene AI-modellen. We introduceren een nieuwe Leetcode-stijl evaluatiedataset voor Q, benchmarken belangrijke frontier-modellen op de dataset, en doen vervolgens pretraining, supervised fine-tuning en reinforcement learning om een reeks redenerende en niet-redenerende modellen te trainen op basis van de Qwen-2.5-serie, die vijf parameterschalen omvat (1.5B, 3B, 7B, 14B, 32B). Ons beste model behaalt een pass@1-nauwkeurigheid van 59 procent op onze Q-benchmark, wat het best presterende frontier-model, Claude Opus-4, met 29,5 procent overtreft. Bovendien presteren alle modellen, zelfs ons 1.5B-model, beter dan GPT-4.1 bij deze taak. Naast het uitbrengen van modellen, code en data, bieden we een gedetailleerd stappenplan voor datasetconstructie, modelpretraining, supervised fine-tuning en reinforcement learning. Onze methodologie is breed toepasbaar, en we bespreken hoe deze technieken kunnen worden uitgebreid naar andere taken, inclusief die waarbij evaluatie mogelijk afhankelijk is van zachte of subjectieve signalen.

English

Even though large language models are becoming increasingly capable, it is still unreasonable to expect them to excel at tasks that are under-represented on the Internet. Leveraging LLMs for specialized applications, particularly in niche programming languages and private domains, remains challenging and largely unsolved. In this work, we address this gap by presenting a comprehensive, open-source approach for adapting LLMs to the Q programming language, a popular tool in quantitative finance that is much less present on the Internet compared to Python, C, Java, and other ``mainstream" languages and is therefore not a strong suit of general-purpose AI models. We introduce a new Leetcode style evaluation dataset for Q, benchmark major frontier models on the dataset, then do pretraining, supervised fine tuning, and reinforcement learning to train a suite of reasoning and non-reasoning models based on the Qwen-2.5 series, spanning five parameter sizes (1.5B, 3B, 7B, 14B, 32B). Our best model achieves a pass@1 accuracy of 59 percent on our Q benchmark, surpassing the best-performing frontier model, Claude Opus-4 by 29.5 percent. Additionally, all models, even our 1.5B model, outperform GPT-4.1 on this task. In addition to releasing models, code, and data, we provide a detailed blueprint for dataset construction, model pretraining, supervised fine-tuning, and reinforcement learning. Our methodology is broadly applicable, and we discuss how these techniques can be extended to other tasks, including those where evaluation may rely on soft or subjective signals.

Technisch Rapport: Full-Stack Fine-Tuning voor de Q Programmeertaal

Technical Report: Full-Stack Fine-Tuning for the Q Programming Language

Samenvatting

Support