ChatPaper.aiChatPaper

Informe Técnico: Ajuste Fino de Pila Completa para el Lenguaje de Programación Q

Technical Report: Full-Stack Fine-Tuning for the Q Programming Language

August 9, 2025
Autores: Brendan R. Hogan, Will Brown, Adel Boyarsky, Anderson Schneider, Yuriy Nevmyvaka
cs.AI

Resumen

Aunque los modelos de lenguaje grandes (LLMs) son cada vez más capaces, sigue siendo poco razonable esperar que sobresalgan en tareas que están subrepresentadas en Internet. Aprovechar los LLMs para aplicaciones especializadas, particularmente en lenguajes de programación de nicho y dominios privados, sigue siendo un desafío y en gran medida no resuelto. En este trabajo, abordamos esta brecha presentando un enfoque integral y de código abierto para adaptar los LLMs al lenguaje de programación Q, una herramienta popular en finanzas cuantitativas que está mucho menos presente en Internet en comparación con Python, C, Java y otros lenguajes "principales", y por lo tanto no es una fortaleza de los modelos de IA de propósito general. Introducimos un nuevo conjunto de datos de evaluación estilo Leetcode para Q, evaluamos los principales modelos de vanguardia en este conjunto de datos, y luego realizamos preentrenamiento, ajuste fino supervisado y aprendizaje por refuerzo para entrenar una serie de modelos de razonamiento y no razonamiento basados en la serie Qwen-2.5, que abarca cinco tamaños de parámetros (1.5B, 3B, 7B, 14B, 32B). Nuestro mejor modelo alcanza una precisión pass@1 del 59 por ciento en nuestra evaluación de Q, superando al modelo de vanguardia mejor posicionado, Claude Opus-4, en un 29.5 por ciento. Además, todos los modelos, incluso nuestro modelo de 1.5B, superan a GPT-4.1 en esta tarea. Además de publicar modelos, código y datos, proporcionamos un plan detallado para la construcción de conjuntos de datos, el preentrenamiento de modelos, el ajuste fino supervisado y el aprendizaje por refuerzo. Nuestra metodología es ampliamente aplicable, y discutimos cómo estas técnicas pueden extenderse a otras tareas, incluyendo aquellas en las que la evaluación puede depender de señales suaves o subjetivas.
English
Even though large language models are becoming increasingly capable, it is still unreasonable to expect them to excel at tasks that are under-represented on the Internet. Leveraging LLMs for specialized applications, particularly in niche programming languages and private domains, remains challenging and largely unsolved. In this work, we address this gap by presenting a comprehensive, open-source approach for adapting LLMs to the Q programming language, a popular tool in quantitative finance that is much less present on the Internet compared to Python, C, Java, and other ``mainstream" languages and is therefore not a strong suit of general-purpose AI models. We introduce a new Leetcode style evaluation dataset for Q, benchmark major frontier models on the dataset, then do pretraining, supervised fine tuning, and reinforcement learning to train a suite of reasoning and non-reasoning models based on the Qwen-2.5 series, spanning five parameter sizes (1.5B, 3B, 7B, 14B, 32B). Our best model achieves a pass@1 accuracy of 59 percent on our Q benchmark, surpassing the best-performing frontier model, Claude Opus-4 by 29.5 percent. Additionally, all models, even our 1.5B model, outperform GPT-4.1 on this task. In addition to releasing models, code, and data, we provide a detailed blueprint for dataset construction, model pretraining, supervised fine-tuning, and reinforcement learning. Our methodology is broadly applicable, and we discuss how these techniques can be extended to other tasks, including those where evaluation may rely on soft or subjective signals.
PDF31August 13, 2025