ChatPaper.aiChatPaper

기술 보고서: Q 프로그래밍 언어를 위한 풀스택 파인튜닝

Technical Report: Full-Stack Fine-Tuning for the Q Programming Language

August 9, 2025
저자: Brendan R. Hogan, Will Brown, Adel Boyarsky, Anderson Schneider, Yuriy Nevmyvaka
cs.AI

초록

대규모 언어 모델(LLM)의 능력이 점점 향상되고 있음에도 불구하고, 인터넷 상에서 잘 다루어지지 않는 작업에서 이들이 뛰어난 성과를 보일 것이라고 기대하는 것은 여전히 무리이다. 특히, 특수 프로그래밍 언어와 사설 도메인에서 LLM을 활용하는 것은 여전히 어려운 과제로 남아 있으며, 이는 대부분 해결되지 않은 상태이다. 본 연구에서는 양적 금융에서 널리 사용되지만 Python, C, Java 등의 '주류' 언어에 비해 인터넷 상에서 상대적으로 덜 다루어지는 Q 프로그래밍 언어에 LLM을 적응시키기 위한 포괄적이고 오픈소스인 접근 방식을 제시하여 이러한 격차를 해소하고자 한다. 우리는 Q를 위한 새로운 Leetcode 스타일의 평가 데이터셋을 소개하고, 주요 최첨단 모델들을 이 데이터셋에서 벤치마킹한 후, Qwen-2.5 시리즈를 기반으로 한 추론 및 비추론 모델을 5가지 파라미터 크기(1.5B, 3B, 7B, 14B, 32B)로 사전 학습, 지도 미세 조정, 강화 학습을 통해 학습시켰다. 우리의 최고 모델은 Q 벤치마크에서 59%의 pass@1 정확도를 달성하며, 최고 성능의 최첨단 모델인 Claude Opus-4를 29.5% 앞섰다. 또한, 모든 모델, 심지어 1.5B 모델도 이 작업에서 GPT-4.1을 능가했다. 모델, 코드, 데이터를 공개하는 것 외에도, 우리는 데이터셋 구축, 모델 사전 학습, 지도 미세 조정, 강화 학습에 대한 상세한 청사진을 제공한다. 우리의 방법론은 광범위하게 적용 가능하며, 이러한 기술들이 평가가 부드럽거나 주관적인 신호에 의존할 수 있는 다른 작업들로 어떻게 확장될 수 있는지에 대해 논의한다.
English
Even though large language models are becoming increasingly capable, it is still unreasonable to expect them to excel at tasks that are under-represented on the Internet. Leveraging LLMs for specialized applications, particularly in niche programming languages and private domains, remains challenging and largely unsolved. In this work, we address this gap by presenting a comprehensive, open-source approach for adapting LLMs to the Q programming language, a popular tool in quantitative finance that is much less present on the Internet compared to Python, C, Java, and other ``mainstream" languages and is therefore not a strong suit of general-purpose AI models. We introduce a new Leetcode style evaluation dataset for Q, benchmark major frontier models on the dataset, then do pretraining, supervised fine tuning, and reinforcement learning to train a suite of reasoning and non-reasoning models based on the Qwen-2.5 series, spanning five parameter sizes (1.5B, 3B, 7B, 14B, 32B). Our best model achieves a pass@1 accuracy of 59 percent on our Q benchmark, surpassing the best-performing frontier model, Claude Opus-4 by 29.5 percent. Additionally, all models, even our 1.5B model, outperform GPT-4.1 on this task. In addition to releasing models, code, and data, we provide a detailed blueprint for dataset construction, model pretraining, supervised fine-tuning, and reinforcement learning. Our methodology is broadly applicable, and we discuss how these techniques can be extended to other tasks, including those where evaluation may rely on soft or subjective signals.
PDF31August 13, 2025