Relatório Técnico: Ajuste Fino de Pilha Completa para a Linguagem de Programação Q
Technical Report: Full-Stack Fine-Tuning for the Q Programming Language
August 9, 2025
Autores: Brendan R. Hogan, Will Brown, Adel Boyarsky, Anderson Schneider, Yuriy Nevmyvaka
cs.AI
Resumo
Embora os modelos de linguagem de grande escala estejam se tornando cada vez mais capazes, ainda é irracional esperar que eles se destaquem em tarefas que são sub-representadas na Internet. Aproveitar LLMs para aplicações especializadas, particularmente em linguagens de programação de nicho e domínios privados, continua desafiador e em grande parte não resolvido. Neste trabalho, abordamos essa lacuna apresentando uma abordagem abrangente e de código aberto para adaptar LLMs à linguagem de programação Q, uma ferramenta popular em finanças quantitativas que está muito menos presente na Internet em comparação com Python, C, Java e outras linguagens "mainstream" e, portanto, não é um ponto forte de modelos de IA de propósito geral. Introduzimos um novo conjunto de dados de avaliação no estilo Leetcode para Q, avaliamos os principais modelos de fronteira no conjunto de dados, e então realizamos pré-treinamento, ajuste fino supervisionado e aprendizado por reforço para treinar uma série de modelos de raciocínio e não raciocínio baseados na série Qwen-2.5, abrangendo cinco tamanhos de parâmetros (1.5B, 3B, 7B, 14B, 32B). Nosso melhor modelo alcança uma precisão pass@1 de 59% em nosso benchmark Q, superando o modelo de fronteira de melhor desempenho, Claude Opus-4, em 29,5%. Além disso, todos os modelos, mesmo nosso modelo de 1.5B, superam o GPT-4.1 nessa tarefa. Além de liberar modelos, código e dados, fornecemos um plano detalhado para a construção de conjuntos de dados, pré-treinamento de modelos, ajuste fino supervisionado e aprendizado por reforço. Nossa metodologia é amplamente aplicável, e discutimos como essas técnicas podem ser estendidas para outras tarefas, incluindo aquelas em que a avaliação pode depender de sinais suaves ou subjetivos.
English
Even though large language models are becoming increasingly capable, it is
still unreasonable to expect them to excel at tasks that are under-represented
on the Internet. Leveraging LLMs for specialized applications, particularly in
niche programming languages and private domains, remains challenging and
largely unsolved. In this work, we address this gap by presenting a
comprehensive, open-source approach for adapting LLMs to the Q programming
language, a popular tool in quantitative finance that is much less present on
the Internet compared to Python, C, Java, and other ``mainstream" languages and
is therefore not a strong suit of general-purpose AI models. We introduce a new
Leetcode style evaluation dataset for Q, benchmark major frontier models on the
dataset, then do pretraining, supervised fine tuning, and reinforcement
learning to train a suite of reasoning and non-reasoning models based on the
Qwen-2.5 series, spanning five parameter sizes (1.5B, 3B, 7B, 14B, 32B). Our
best model achieves a pass@1 accuracy of 59 percent on our Q benchmark,
surpassing the best-performing frontier model, Claude Opus-4 by 29.5 percent.
Additionally, all models, even our 1.5B model, outperform GPT-4.1 on this task.
In addition to releasing models, code, and data, we provide a detailed
blueprint for dataset construction, model pretraining, supervised fine-tuning,
and reinforcement learning. Our methodology is broadly applicable, and we
discuss how these techniques can be extended to other tasks, including those
where evaluation may rely on soft or subjective signals.