ChatPaper.aiChatPaper

StockBench : Les agents LLM peuvent-ils trader les actions de manière rentable sur les marchés réels ?

StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?

October 2, 2025
papers.authors: Yanxu Chen, Zijun Yao, Yantao Liu, Jin Ye, Jianing Yu, Lei Hou, Juanzi Li
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) ont récemment démontré des capacités impressionnantes en tant qu'agents autonomes, montrant des promesses dans le raisonnement, l'utilisation d'outils et la prise de décision séquentielle. Bien que des benchmarks antérieurs aient évalué les agents LLM dans des domaines tels que l'ingénierie logicielle et la découverte scientifique, le domaine de la finance reste sous-exploré, malgré sa pertinence directe pour la valeur économique et la prise de décision à enjeux élevés. Les benchmarks financiers existants testent principalement les connaissances statiques à travers des questions-réponses, mais ils ne parviennent pas à capturer la nature dynamique et itérative du trading. Pour combler cette lacune, nous introduisons StockBench, un benchmark exempt de contamination conçu pour évaluer les agents LLM dans des environnements réalistes de trading boursier sur plusieurs mois. Les agents reçoivent des signaux quotidiens du marché — incluant les prix, les fondamentaux et les actualités — et doivent prendre des décisions séquentielles d'achat, de vente ou de maintien. La performance est évaluée à l'aide de métriques financières telles que le rendement cumulatif, le drawdown maximum et le ratio de Sortino. Notre évaluation des modèles propriétaires de pointe (par exemple, GPT-5, Claude-4) et des modèles à poids ouvert (par exemple, Qwen3, Kimi-K2, GLM-4.5) montre que si la plupart des agents LLM peinent à surpasser la stratégie de base d'achat et de maintien, plusieurs modèles démontrent un potentiel pour générer des rendements plus élevés et gérer le risque plus efficacement. Ces résultats mettent en lumière à la fois les défis et les opportunités dans le développement d'agents financiers alimentés par des LLM, montrant qu'exceller dans des tâches de connaissances financières statiques ne se traduit pas nécessairement en stratégies de trading réussies. Nous publions StockBench en tant que ressource open-source pour soutenir la reproductibilité et faire avancer les recherches futures dans ce domaine.
English
Large language models (LLMs) have recently demonstrated strong capabilities as autonomous agents, showing promise in reasoning, tool use, and sequential decision-making. While prior benchmarks have evaluated LLM agents in domains such as software engineering and scientific discovery, the finance domain remains underexplored, despite its direct relevance to economic value and high-stakes decision-making. Existing financial benchmarks primarily test static knowledge through question answering, but they fall short of capturing the dynamic and iterative nature of trading. To address this gap, we introduce StockBench, a contamination-free benchmark designed to evaluate LLM agents in realistic, multi-month stock trading environments. Agents receive daily market signals -- including prices, fundamentals, and news -- and must make sequential buy, sell, or hold decisions. Performance is assessed using financial metrics such as cumulative return, maximum drawdown, and the Sortino ratio. Our evaluation of state-of-the-art proprietary (e.g., GPT-5, Claude-4) and open-weight (e.g., Qwen3, Kimi-K2, GLM-4.5) models shows that while most LLM agents struggle to outperform the simple buy-and-hold baseline, several models demonstrate the potential to deliver higher returns and manage risk more effectively. These findings highlight both the challenges and opportunities in developing LLM-powered financial agents, showing that excelling at static financial knowledge tasks does not necessarily translate into successful trading strategies. We release StockBench as an open-source resource to support reproducibility and advance future research in this domain.
PDF474October 3, 2025