ChatPaper.aiChatPaper

StockBench: Gli Agenti LLM Possono Fare Trading di Azioni con Profitto nei Mercati Reali?

StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?

October 2, 2025
Autori: Yanxu Chen, Zijun Yao, Yantao Liu, Jin Ye, Jianing Yu, Lei Hou, Juanzi Li
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato forti capacità come agenti autonomi, mostrando promettenti risultati nel ragionamento, nell'uso di strumenti e nel processo decisionale sequenziale. Sebbene i benchmark precedenti abbiano valutato gli agenti LLM in domini come l'ingegneria del software e la scoperta scientifica, il dominio finanziario rimane poco esplorato, nonostante la sua rilevanza diretta per il valore economico e il processo decisionale ad alto rischio. Gli attuali benchmark finanziari testano principalmente la conoscenza statica attraverso il question answering, ma non riescono a catturare la natura dinamica e iterativa del trading. Per colmare questa lacuna, introduciamo StockBench, un benchmark privo di contaminazione progettato per valutare gli agenti LLM in ambienti realistici di trading azionario su più mesi. Gli agenti ricevono segnali di mercato giornalieri — inclusi prezzi, fondamentali e notizie — e devono prendere decisioni sequenziali di acquisto, vendita o mantenimento. Le prestazioni vengono valutate utilizzando metriche finanziarie come il rendimento cumulativo, il massimo drawdown e il rapporto Sortino. La nostra valutazione dei modelli proprietari all'avanguardia (ad esempio, GPT-5, Claude-4) e open-weight (ad esempio, Qwen3, Kimi-K2, GLM-4.5) mostra che, sebbene la maggior parte degli agenti LLM fatica a superare la semplice baseline di buy-and-hold, diversi modelli dimostrano il potenziale di generare rendimenti più elevati e gestire il rischio in modo più efficace. Questi risultati evidenziano sia le sfide che le opportunità nello sviluppo di agenti finanziari alimentati da LLM, dimostrando che eccellere in compiti di conoscenza finanziaria statica non si traduce necessariamente in strategie di trading di successo. Rilasciamo StockBench come risorsa open-source per supportare la riproducibilità e promuovere la ricerca futura in questo dominio.
English
Large language models (LLMs) have recently demonstrated strong capabilities as autonomous agents, showing promise in reasoning, tool use, and sequential decision-making. While prior benchmarks have evaluated LLM agents in domains such as software engineering and scientific discovery, the finance domain remains underexplored, despite its direct relevance to economic value and high-stakes decision-making. Existing financial benchmarks primarily test static knowledge through question answering, but they fall short of capturing the dynamic and iterative nature of trading. To address this gap, we introduce StockBench, a contamination-free benchmark designed to evaluate LLM agents in realistic, multi-month stock trading environments. Agents receive daily market signals -- including prices, fundamentals, and news -- and must make sequential buy, sell, or hold decisions. Performance is assessed using financial metrics such as cumulative return, maximum drawdown, and the Sortino ratio. Our evaluation of state-of-the-art proprietary (e.g., GPT-5, Claude-4) and open-weight (e.g., Qwen3, Kimi-K2, GLM-4.5) models shows that while most LLM agents struggle to outperform the simple buy-and-hold baseline, several models demonstrate the potential to deliver higher returns and manage risk more effectively. These findings highlight both the challenges and opportunities in developing LLM-powered financial agents, showing that excelling at static financial knowledge tasks does not necessarily translate into successful trading strategies. We release StockBench as an open-source resource to support reproducibility and advance future research in this domain.
PDF494October 3, 2025