Rapport Technique : Ajustement Fin en Pile Complète pour le Langage de Programmation Q
Technical Report: Full-Stack Fine-Tuning for the Q Programming Language
August 9, 2025
papers.authors: Brendan R. Hogan, Will Brown, Adel Boyarsky, Anderson Schneider, Yuriy Nevmyvaka
cs.AI
papers.abstract
Bien que les modèles de langage de grande taille deviennent de plus en plus performants, il reste déraisonnable de s'attendre à ce qu'ils excellent dans des tâches sous-représentées sur Internet. L'exploitation des LLM pour des applications spécialisées, en particulier dans des langages de programmation de niche et des domaines privés, reste un défi largement non résolu. Dans ce travail, nous comblons cette lacune en présentant une approche open-source complète pour adapter les LLM au langage de programmation Q, un outil populaire en finance quantitative qui est beaucoup moins présent sur Internet par rapport à Python, C, Java et d'autres langages « grand public », et qui n'est donc pas un point fort des modèles d'IA généralistes. Nous introduisons un nouveau jeu de données d'évaluation de style Leetcode pour Q, évaluons les principaux modèles de pointe sur ce jeu de données, puis effectuons un pré-entraînement, un réglage fin supervisé et un apprentissage par renforcement pour entraîner une série de modèles de raisonnement et non-raisonnement basés sur la série Qwen-2.5, couvrant cinq tailles de paramètres (1,5B, 3B, 7B, 14B, 32B). Notre meilleur modèle atteint une précision pass@1 de 59 % sur notre benchmark Q, surpassant le modèle de pointe le plus performant, Claude Opus-4, de 29,5 %. De plus, tous les modèles, y compris notre modèle de 1,5B, surpassent GPT-4.1 sur cette tâche. En plus de publier les modèles, le code et les données, nous fournissons un guide détaillé pour la construction du jeu de données, le pré-entraînement des modèles, le réglage fin supervisé et l'apprentissage par renforcement. Notre méthodologie est largement applicable, et nous discutons de la manière dont ces techniques peuvent être étendues à d'autres tâches, y compris celles où l'évaluation peut reposer sur des signaux mous ou subjectifs.
English
Even though large language models are becoming increasingly capable, it is
still unreasonable to expect them to excel at tasks that are under-represented
on the Internet. Leveraging LLMs for specialized applications, particularly in
niche programming languages and private domains, remains challenging and
largely unsolved. In this work, we address this gap by presenting a
comprehensive, open-source approach for adapting LLMs to the Q programming
language, a popular tool in quantitative finance that is much less present on
the Internet compared to Python, C, Java, and other ``mainstream" languages and
is therefore not a strong suit of general-purpose AI models. We introduce a new
Leetcode style evaluation dataset for Q, benchmark major frontier models on the
dataset, then do pretraining, supervised fine tuning, and reinforcement
learning to train a suite of reasoning and non-reasoning models based on the
Qwen-2.5 series, spanning five parameter sizes (1.5B, 3B, 7B, 14B, 32B). Our
best model achieves a pass@1 accuracy of 59 percent on our Q benchmark,
surpassing the best-performing frontier model, Claude Opus-4 by 29.5 percent.
Additionally, all models, even our 1.5B model, outperform GPT-4.1 on this task.
In addition to releasing models, code, and data, we provide a detailed
blueprint for dataset construction, model pretraining, supervised fine-tuning,
and reinforcement learning. Our methodology is broadly applicable, and we
discuss how these techniques can be extended to other tasks, including those
where evaluation may rely on soft or subjective signals.