Technischer Bericht: Full-Stack-Fine-Tuning für die Programmiersprache Q
Technical Report: Full-Stack Fine-Tuning for the Q Programming Language
August 9, 2025
papers.authors: Brendan R. Hogan, Will Brown, Adel Boyarsky, Anderson Schneider, Yuriy Nevmyvaka
cs.AI
papers.abstract
Obwohl große Sprachmodelle zunehmend leistungsfähiger werden, ist es immer noch unangemessen, von ihnen zu erwarten, dass sie Aufgaben, die im Internet unterrepräsentiert sind, hervorragend bewältigen. Die Nutzung von LLMs für spezialisierte Anwendungen, insbesondere in Nischen-Programmiersprachen und privaten Domänen, bleibt herausfordernd und weitgehend ungelöst. In dieser Arbeit adressieren wir diese Lücke, indem wir einen umfassenden, quelloffenen Ansatz zur Anpassung von LLMs an die Q-Programmiersprache vorstellen, ein beliebtes Werkzeug in der quantitativen Finanzwelt, das im Vergleich zu Python, C, Java und anderen „Mainstream“-Sprachen viel weniger im Internet präsent ist und daher keine Stärke allgemeiner KI-Modelle darstellt. Wir führen einen neuen Leetcode-artigen Evaluationsdatensatz für Q ein, benchmarken führende Frontier-Modelle auf diesem Datensatz und führen anschließend Pretraining, überwachtes Feintuning und Reinforcement Learning durch, um eine Reihe von Reasoning- und Nicht-Reasoning-Modellen basierend auf der Qwen-2.5-Serie zu trainieren, die fünf Parametergrößen umfasst (1,5B, 3B, 7B, 14B, 32B). Unser bestes Modell erreicht eine Pass@1-Genauigkeit von 59 Prozent auf unserem Q-Benchmark und übertrifft damit das leistungsstärkste Frontier-Modell, Claude Opus-4, um 29,5 Prozent. Darüber hinaus übertreffen alle Modelle, sogar unser 1,5B-Modell, GPT-4.1 bei dieser Aufgabe. Neben der Veröffentlichung von Modellen, Code und Daten bieten wir einen detaillierten Leitfaden für die Datensatzerstellung, das Modell-Pretraining, das überwachte Feintuning und das Reinforcement Learning. Unsere Methodik ist breit anwendbar, und wir diskutieren, wie diese Techniken auf andere Aufgaben ausgeweitet werden können, einschließlich solcher, bei denen die Bewertung auf weichen oder subjektiven Signalen beruhen kann.
English
Even though large language models are becoming increasingly capable, it is
still unreasonable to expect them to excel at tasks that are under-represented
on the Internet. Leveraging LLMs for specialized applications, particularly in
niche programming languages and private domains, remains challenging and
largely unsolved. In this work, we address this gap by presenting a
comprehensive, open-source approach for adapting LLMs to the Q programming
language, a popular tool in quantitative finance that is much less present on
the Internet compared to Python, C, Java, and other ``mainstream" languages and
is therefore not a strong suit of general-purpose AI models. We introduce a new
Leetcode style evaluation dataset for Q, benchmark major frontier models on the
dataset, then do pretraining, supervised fine tuning, and reinforcement
learning to train a suite of reasoning and non-reasoning models based on the
Qwen-2.5 series, spanning five parameter sizes (1.5B, 3B, 7B, 14B, 32B). Our
best model achieves a pass@1 accuracy of 59 percent on our Q benchmark,
surpassing the best-performing frontier model, Claude Opus-4 by 29.5 percent.
Additionally, all models, even our 1.5B model, outperform GPT-4.1 on this task.
In addition to releasing models, code, and data, we provide a detailed
blueprint for dataset construction, model pretraining, supervised fine-tuning,
and reinforcement learning. Our methodology is broadly applicable, and we
discuss how these techniques can be extended to other tasks, including those
where evaluation may rely on soft or subjective signals.