Rapporto Tecnico: Ottimizzazione Full-Stack per il Linguaggio di Programmazione Q
Technical Report: Full-Stack Fine-Tuning for the Q Programming Language
August 9, 2025
Autori: Brendan R. Hogan, Will Brown, Adel Boyarsky, Anderson Schneider, Yuriy Nevmyvaka
cs.AI
Abstract
Sebbene i modelli linguistici di grandi dimensioni stiano diventando sempre più capaci, è ancora irragionevole aspettarsi che eccellano in compiti che sono sottorappresentati su Internet. Sfruttare i LLM per applicazioni specializzate, in particolare in linguaggi di programmazione di nicchia e domini privati, rimane una sfida e in gran parte irrisolta. In questo lavoro, affrontiamo questa lacuna presentando un approccio completo e open-source per adattare i LLM al linguaggio di programmazione Q, uno strumento popolare nella finanza quantitativa che è molto meno presente su Internet rispetto a Python, C, Java e altri linguaggi "mainstream" e quindi non è un punto di forza dei modelli AI generici. Introduciamo un nuovo dataset di valutazione in stile Leetcode per Q, confrontiamo i principali modelli all'avanguardia su questo dataset, quindi eseguiamo pre-addestramento, fine-tuning supervisionato e apprendimento per rinforzo per addestrare una serie di modelli di ragionamento e non ragionamento basati sulla serie Qwen-2.5, che copre cinque dimensioni di parametri (1.5B, 3B, 7B, 14B, 32B). Il nostro modello migliore raggiunge un'accuratezza pass@1 del 59 percento sul nostro benchmark Q, superando il modello all'avanguardia più performante, Claude Opus-4, del 29.5 percento. Inoltre, tutti i modelli, persino il nostro modello da 1.5B, superano GPT-4.1 in questo compito. Oltre a rilasciare modelli, codice e dati, forniamo una guida dettagliata per la costruzione del dataset, il pre-addestramento del modello, il fine-tuning supervisionato e l'apprendimento per rinforzo. La nostra metodologia è ampiamente applicabile e discutiamo come queste tecniche possano essere estese ad altri compiti, inclusi quelli in cui la valutazione può basarsi su segnali soft o soggettivi.
English
Even though large language models are becoming increasingly capable, it is
still unreasonable to expect them to excel at tasks that are under-represented
on the Internet. Leveraging LLMs for specialized applications, particularly in
niche programming languages and private domains, remains challenging and
largely unsolved. In this work, we address this gap by presenting a
comprehensive, open-source approach for adapting LLMs to the Q programming
language, a popular tool in quantitative finance that is much less present on
the Internet compared to Python, C, Java, and other ``mainstream" languages and
is therefore not a strong suit of general-purpose AI models. We introduce a new
Leetcode style evaluation dataset for Q, benchmark major frontier models on the
dataset, then do pretraining, supervised fine tuning, and reinforcement
learning to train a suite of reasoning and non-reasoning models based on the
Qwen-2.5 series, spanning five parameter sizes (1.5B, 3B, 7B, 14B, 32B). Our
best model achieves a pass@1 accuracy of 59 percent on our Q benchmark,
surpassing the best-performing frontier model, Claude Opus-4 by 29.5 percent.
Additionally, all models, even our 1.5B model, outperform GPT-4.1 on this task.
In addition to releasing models, code, and data, we provide a detailed
blueprint for dataset construction, model pretraining, supervised fine-tuning,
and reinforcement learning. Our methodology is broadly applicable, and we
discuss how these techniques can be extended to other tasks, including those
where evaluation may rely on soft or subjective signals.