QuantCode-Bench: Un Benchmark per Valutare la Capacità dei Modelli Linguistici di Grandi Dimensioni di Generare Strategie di Trading Algoritmico Eseguibili
QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies
April 16, 2026
Autori: Alexey Khoroshilov, Alexey Chernysh, Orkhan Ekhtibarov, Nini Kamkia, Dmitry Zmitrovich
cs.AI
Abstract
I modelli linguistici di grandi dimensioni hanno dimostrato prestazioni solide in compiti di programmazione generica, ma la loro capacità di generare strategie di trading algoritmico eseguibili rimane poco esplorata. A differenza dei benchmark di codice standard, la generazione di strategie di trading richiede la padronanza simultanea di una logica finanziaria specifica del dominio, la conoscenza di un'API specializzata e la capacità di produrre codice che non sia solo sintatticamente corretto, ma che porti anche a transazioni reali su dati storici. In questo lavoro, presentiamo QuantCode-Bench, un benchmark per la valutazione sistematica dei moderni LLM nella generazione di strategie per il framework Backtrader a partire da descrizioni testuali in inglese. Il benchmark contiene 400 compiti di difficoltà variabile, raccolti da Reddit, TradingView, StackExchange, GitHub e fonti sintetiche. La valutazione viene condotta attraverso una pipeline multi-stadio che verifica la correttezza sintattica, l'esecuzione corretta del backtest, la presenza di transazioni e l'allineamento semantico con la descrizione del compito utilizzando un giudice basato su LLM. Confrontiamo i modelli all'avanguardia in due contesti: single-turn, dove la strategia deve essere generata correttamente al primo tentativo, e multi-turn agentico, dove il modello riceve feedback iterativo e può correggere i propri errori. Analizziamo le modalità di fallimento nelle diverse fasi della pipeline e mostriamo che le principali limitazioni dei modelli attuali non sono correlate alla sintassi, ma piuttosto alla corretta operazionalizzazione della logica di trading, all'uso appropriato delle API e all'aderenza alla semantica del compito. Questi risultati suggeriscono che la generazione di strategie di trading costituisce una classe distinta di compiti di generazione di codice specifico per dominio, in cui il successo richiede non solo la correttezza tecnica, ma anche l'allineamento tra le descrizioni in linguaggio naturale, la logica finanziaria e il comportamento osservabile della strategia sui dati.
English
Large language models have demonstrated strong performance on general-purpose programming tasks, yet their ability to generate executable algorithmic trading strategies remains underexplored. Unlike standard code benchmarks, trading-strategy generation requires simultaneous mastery of domain-specific financial logic, knowledge of a specialized API, and the ability to produce code that is not only syntactically correct but also leads to actual trades on historical data. In this work, we present QuantCode-Bench, a benchmark for the systematic evaluation of modern LLMs in generating strategies for the Backtrader framework from textual descriptions in English. The benchmark contains 400 tasks of varying difficulty collected from Reddit, TradingView, StackExchange, GitHub, and synthetic sources. Evaluation is conducted through a multi-stage pipeline that checks syntactic correctness, successful backtest execution, the presence of trades, and semantic alignment with the task description using an LLM judge. We compare state-of-the-art models in two settings: single-turn, where the strategy must be generated correctly on the first attempt, and agentic multi-turn, where the model receives iterative feedback and may repair its errors. We analyze the failure modes across different stages of the pipeline and show that the main limitations of current models are not related to syntax, but rather to the correct operationalization of trading logic, proper API usage, and adherence to task semantics. These findings suggest that trading strategy generation constitutes a distinct class of domain-specific code generation tasks in which success requires not only technical correctness, but also alignment between natural-language descriptions, financial logic, and the observable behavior of the strategy on data.