Technisch Rapport: Full-Stack Fine-Tuning voor de Q Programmeertaal
Technical Report: Full-Stack Fine-Tuning for the Q Programming Language
August 9, 2025
Auteurs: Brendan R. Hogan, Will Brown, Adel Boyarsky, Anderson Schneider, Yuriy Nevmyvaka
cs.AI
Samenvatting
Hoewel grote taalmodellen steeds capabeler worden, is het nog steeds onredelijk om te verwachten dat ze uitblinken in taken die ondervertegenwoordigd zijn op het internet. Het benutten van LLM's voor gespecialiseerde toepassingen, met name in niche-programmeertalen en privédomeinen, blijft uitdagend en grotendeels onopgelost. In dit werk pakken we deze kloof aan door een uitgebreide, open-source aanpak te presenteren voor het aanpassen van LLM's aan de Q-programmeertaal, een populair hulpmiddel in kwantitatieve financiën dat veel minder aanwezig is op het internet vergeleken met Python, C, Java en andere "mainstream" talen, en daarom geen sterk punt is van algemene AI-modellen. We introduceren een nieuwe Leetcode-stijl evaluatiedataset voor Q, benchmarken belangrijke frontier-modellen op de dataset, en doen vervolgens pretraining, supervised fine-tuning en reinforcement learning om een reeks redenerende en niet-redenerende modellen te trainen op basis van de Qwen-2.5-serie, die vijf parameterschalen omvat (1.5B, 3B, 7B, 14B, 32B). Ons beste model behaalt een pass@1-nauwkeurigheid van 59 procent op onze Q-benchmark, wat het best presterende frontier-model, Claude Opus-4, met 29,5 procent overtreft. Bovendien presteren alle modellen, zelfs ons 1.5B-model, beter dan GPT-4.1 bij deze taak. Naast het uitbrengen van modellen, code en data, bieden we een gedetailleerd stappenplan voor datasetconstructie, modelpretraining, supervised fine-tuning en reinforcement learning. Onze methodologie is breed toepasbaar, en we bespreken hoe deze technieken kunnen worden uitgebreid naar andere taken, inclusief die waarbij evaluatie mogelijk afhankelijk is van zachte of subjectieve signalen.
English
Even though large language models are becoming increasingly capable, it is
still unreasonable to expect them to excel at tasks that are under-represented
on the Internet. Leveraging LLMs for specialized applications, particularly in
niche programming languages and private domains, remains challenging and
largely unsolved. In this work, we address this gap by presenting a
comprehensive, open-source approach for adapting LLMs to the Q programming
language, a popular tool in quantitative finance that is much less present on
the Internet compared to Python, C, Java, and other ``mainstream" languages and
is therefore not a strong suit of general-purpose AI models. We introduce a new
Leetcode style evaluation dataset for Q, benchmark major frontier models on the
dataset, then do pretraining, supervised fine tuning, and reinforcement
learning to train a suite of reasoning and non-reasoning models based on the
Qwen-2.5 series, spanning five parameter sizes (1.5B, 3B, 7B, 14B, 32B). Our
best model achieves a pass@1 accuracy of 59 percent on our Q benchmark,
surpassing the best-performing frontier model, Claude Opus-4 by 29.5 percent.
Additionally, all models, even our 1.5B model, outperform GPT-4.1 on this task.
In addition to releasing models, code, and data, we provide a detailed
blueprint for dataset construction, model pretraining, supervised fine-tuning,
and reinforcement learning. Our methodology is broadly applicable, and we
discuss how these techniques can be extended to other tasks, including those
where evaluation may rely on soft or subjective signals.