Технический отчет: Полноценная тонкая настройка для языка программирования Q
Technical Report: Full-Stack Fine-Tuning for the Q Programming Language
August 9, 2025
Авторы: Brendan R. Hogan, Will Brown, Adel Boyarsky, Anderson Schneider, Yuriy Nevmyvaka
cs.AI
Аннотация
Несмотря на то, что крупные языковые модели становятся всё более мощными, всё ещё неразумно ожидать от них высоких результатов в задачах, которые недостаточно представлены в интернете. Использование таких моделей для специализированных приложений, особенно в нишевых языках программирования и частных доменах, остаётся сложной и в значительной степени нерешённой задачей. В данной работе мы устраняем этот пробел, предлагая комплексный подход с открытым исходным кодом для адаптации языковых моделей к языку программирования Q — популярному инструменту в количественных финансах, который гораздо менее представлен в интернете по сравнению с Python, C, Java и другими «основными» языками, и поэтому не является сильной стороной универсальных моделей ИИ. Мы представляем новый набор данных для оценки в стиле Leetcode для языка Q, тестируем на нём ведущие модели, а затем проводим предварительное обучение, тонкую настройку с учителем и обучение с подкреплением для создания набора моделей, основанных на архитектуре Qwen-2.5, охватывающих пять размеров параметров (1.5B, 3B, 7B, 14B, 32B). Наша лучшая модель достигает точности pass@1 в 59 процентов на нашем бенчмарке для Q, превосходя лучшую из ведущих моделей, Claude Opus-4, на 29.5 процентов. Кроме того, все наши модели, включая модель с 1.5B параметров, превосходят GPT-4.1 в этой задаче. Помимо выпуска моделей, кода и данных, мы предоставляем подробное руководство по созданию наборов данных, предварительному обучению моделей, тонкой настройке с учителем и обучению с подкреплением. Наша методология имеет широкую применимость, и мы обсуждаем, как эти техники могут быть расширены на другие задачи, включая те, где оценка может основываться на мягких или субъективных сигналах.
English
Even though large language models are becoming increasingly capable, it is
still unreasonable to expect them to excel at tasks that are under-represented
on the Internet. Leveraging LLMs for specialized applications, particularly in
niche programming languages and private domains, remains challenging and
largely unsolved. In this work, we address this gap by presenting a
comprehensive, open-source approach for adapting LLMs to the Q programming
language, a popular tool in quantitative finance that is much less present on
the Internet compared to Python, C, Java, and other ``mainstream" languages and
is therefore not a strong suit of general-purpose AI models. We introduce a new
Leetcode style evaluation dataset for Q, benchmark major frontier models on the
dataset, then do pretraining, supervised fine tuning, and reinforcement
learning to train a suite of reasoning and non-reasoning models based on the
Qwen-2.5 series, spanning five parameter sizes (1.5B, 3B, 7B, 14B, 32B). Our
best model achieves a pass@1 accuracy of 59 percent on our Q benchmark,
surpassing the best-performing frontier model, Claude Opus-4 by 29.5 percent.
Additionally, all models, even our 1.5B model, outperform GPT-4.1 on this task.
In addition to releasing models, code, and data, we provide a detailed
blueprint for dataset construction, model pretraining, supervised fine-tuning,
and reinforcement learning. Our methodology is broadly applicable, and we
discuss how these techniques can be extended to other tasks, including those
where evaluation may rely on soft or subjective signals.