StockBench: Können LLM-Agenten profitabel an realen Börsenmärkten handeln?
StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?
October 2, 2025
papers.authors: Yanxu Chen, Zijun Yao, Yantao Liu, Jin Ye, Jianing Yu, Lei Hou, Juanzi Li
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben kürzlich starke Fähigkeiten als autonome Agenten demonstriert und zeigen Potenzial in den Bereichen logisches Denken, Werkzeugnutzung und sequenzieller Entscheidungsfindung. Während frühere Benchmarks LLM-Agenten in Domänen wie Softwareentwicklung und wissenschaftlicher Entdeckung bewertet haben, bleibt der Finanzbereich trotz seiner direkten Relevanz für wirtschaftlichen Wert und hochriskante Entscheidungsfindung weitgehend unerforscht. Bestehende Finanzbenchmarks testen hauptsächlich statisches Wissen durch Frage-Antwort-Szenarien, erfassen jedoch nicht die dynamische und iterative Natur des Handels. Um diese Lücke zu schließen, führen wir StockBench ein, einen kontaminationsfreien Benchmark, der entwickelt wurde, um LLM-Agenten in realistischen, mehrmonatigen Aktienhandelsumgebungen zu bewerten. Die Agenten erhalten täglich Marktsignale – einschließlich Preise, Fundamentaldaten und Nachrichten – und müssen sequenzielle Kauf-, Verkaufs- oder Halteentscheidungen treffen. Die Leistung wird anhand finanzieller Kennzahlen wie kumulativer Rendite, maximalem Drawdown und dem Sortino-Verhältnis bewertet. Unsere Bewertung von state-of-the-art proprietären (z. B. GPT-5, Claude-4) und Open-Weight-Modellen (z. B. Qwen3, Kimi-K2, GLM-4.5) zeigt, dass die meisten LLM-Agenten Schwierigkeiten haben, die einfache Buy-and-Hold-Baseline zu übertreffen, einige Modelle jedoch das Potenzial zeigen, höhere Renditen zu erzielen und Risiken effektiver zu managen. Diese Ergebnisse verdeutlichen sowohl die Herausforderungen als auch die Chancen bei der Entwicklung von LLM-gestützten Finanzagenten und zeigen, dass die Bewältigung statischer Finanzwissensaufgaben nicht zwangsläufig in erfolgreiche Handelsstrategien mündet. Wir veröffentlichen StockBench als Open-Source-Ressource, um Reproduzierbarkeit zu unterstützen und zukünftige Forschung in diesem Bereich voranzutreiben.
English
Large language models (LLMs) have recently demonstrated strong capabilities
as autonomous agents, showing promise in reasoning, tool use, and sequential
decision-making. While prior benchmarks have evaluated LLM agents in domains
such as software engineering and scientific discovery, the finance domain
remains underexplored, despite its direct relevance to economic value and
high-stakes decision-making. Existing financial benchmarks primarily test
static knowledge through question answering, but they fall short of capturing
the dynamic and iterative nature of trading. To address this gap, we introduce
StockBench, a contamination-free benchmark designed to evaluate LLM agents in
realistic, multi-month stock trading environments. Agents receive daily market
signals -- including prices, fundamentals, and news -- and must make sequential
buy, sell, or hold decisions. Performance is assessed using financial metrics
such as cumulative return, maximum drawdown, and the Sortino ratio. Our
evaluation of state-of-the-art proprietary (e.g., GPT-5, Claude-4) and
open-weight (e.g., Qwen3, Kimi-K2, GLM-4.5) models shows that while most LLM
agents struggle to outperform the simple buy-and-hold baseline, several models
demonstrate the potential to deliver higher returns and manage risk more
effectively. These findings highlight both the challenges and opportunities in
developing LLM-powered financial agents, showing that excelling at static
financial knowledge tasks does not necessarily translate into successful
trading strategies. We release StockBench as an open-source resource to support
reproducibility and advance future research in this domain.