StockBench: Kunnen LLM-agents winstgevend aandelen verhandelen in echte markten?
StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?
October 2, 2025
Auteurs: Yanxu Chen, Zijun Yao, Yantao Liu, Jin Ye, Jianing Yu, Lei Hou, Juanzi Li
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) hebben recentelijk sterke capaciteiten getoond als autonome agents, waarbij ze veelbelovend zijn op het gebied van redeneren, gereedschapsgebruik en sequentiële besluitvorming. Hoewel eerdere benchmarks LLM-agents hebben geëvalueerd in domeinen zoals software engineering en wetenschappelijke ontdekking, blijft het financiële domein onderbelicht, ondanks de directe relevantie voor economische waarde en besluitvorming met grote gevolgen. Bestaande financiële benchmarks testen voornamelijk statische kennis via vraag-antwoordtaken, maar ze schieten tekort in het vastleggen van de dynamische en iteratieve aard van handel. Om dit gat te dichten, introduceren we StockBench, een contaminatievrije benchmark ontworpen om LLM-agents te evalueren in realistische, meerdere maanden durende aandelenhandelomgevingen. Agents ontvangen dagelijkse marktsignalen – inclusief prijzen, fundamentele gegevens en nieuws – en moeten sequentiële koop-, verkoop- of houdbeslissingen nemen. Prestaties worden beoordeeld met behulp van financiële metrieken zoals cumulatief rendement, maximale daling en de Sortino-ratio. Onze evaluatie van state-of-the-art propriëtaire (bijv. GPT-5, Claude-4) en open-weight modellen (bijv. Qwen3, Kimi-K2, GLM-4.5) toont aan dat, hoewel de meeste LLM-agents moeite hebben om het eenvoudige buy-and-hold-baseline te overtreffen, verschillende modellen het potentieel tonen om hogere rendementen te behalen en risico effectiever te beheren. Deze bevindingen benadrukken zowel de uitdagingen als de kansen bij het ontwikkelen van LLM-gestuurde financiële agents, en laten zien dat uitblinken in statische financiële kennistaken niet noodzakelijkerwijs vertaalt naar succesvolle handelsstrategieën. We maken StockBench beschikbaar als een open-source bron om reproduceerbaarheid te ondersteunen en toekomstig onderzoek in dit domein te bevorderen.
English
Large language models (LLMs) have recently demonstrated strong capabilities
as autonomous agents, showing promise in reasoning, tool use, and sequential
decision-making. While prior benchmarks have evaluated LLM agents in domains
such as software engineering and scientific discovery, the finance domain
remains underexplored, despite its direct relevance to economic value and
high-stakes decision-making. Existing financial benchmarks primarily test
static knowledge through question answering, but they fall short of capturing
the dynamic and iterative nature of trading. To address this gap, we introduce
StockBench, a contamination-free benchmark designed to evaluate LLM agents in
realistic, multi-month stock trading environments. Agents receive daily market
signals -- including prices, fundamentals, and news -- and must make sequential
buy, sell, or hold decisions. Performance is assessed using financial metrics
such as cumulative return, maximum drawdown, and the Sortino ratio. Our
evaluation of state-of-the-art proprietary (e.g., GPT-5, Claude-4) and
open-weight (e.g., Qwen3, Kimi-K2, GLM-4.5) models shows that while most LLM
agents struggle to outperform the simple buy-and-hold baseline, several models
demonstrate the potential to deliver higher returns and manage risk more
effectively. These findings highlight both the challenges and opportunities in
developing LLM-powered financial agents, showing that excelling at static
financial knowledge tasks does not necessarily translate into successful
trading strategies. We release StockBench as an open-source resource to support
reproducibility and advance future research in this domain.