StockBench: Agentes de LLM Podem Negociar Ações de Forma Lucrativa em Mercados do Mundo Real?
StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?
October 2, 2025
Autores: Yanxu Chen, Zijun Yao, Yantao Liu, Jin Ye, Jianing Yu, Lei Hou, Juanzi Li
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) demonstraram recentemente capacidades robustas como agentes autônomos, mostrando potencial em raciocínio, uso de ferramentas e tomada de decisão sequencial. Embora benchmarks anteriores tenham avaliado agentes LLMs em domínios como engenharia de software e descoberta científica, o domínio financeiro permanece pouco explorado, apesar de sua relevância direta para o valor econômico e a tomada de decisões de alto risco. Os benchmarks financeiros existentes testam principalmente conhecimento estático por meio de questionários, mas falham em capturar a natureza dinâmica e iterativa do trading. Para preencher essa lacuna, introduzimos o StockBench, um benchmark livre de contaminação projetado para avaliar agentes LLMs em ambientes realistas de trading de ações ao longo de vários meses. Os agentes recebem sinais diários de mercado — incluindo preços, fundamentos e notícias — e devem tomar decisões sequenciais de compra, venda ou manutenção. O desempenho é avaliado usando métricas financeiras como retorno acumulado, drawdown máximo e o índice Sortino. Nossa avaliação de modelos proprietários de ponta (por exemplo, GPT-5, Claude-4) e de código aberto (por exemplo, Qwen3, Kimi-K2, GLM-4.5) mostra que, embora a maioria dos agentes LLMs tenha dificuldade em superar a estratégia simples de buy-and-hold, vários modelos demonstram potencial para entregar retornos mais altos e gerenciar riscos de forma mais eficaz. Esses achados destacam tanto os desafios quanto as oportunidades no desenvolvimento de agentes financeiros alimentados por LLMs, mostrando que o bom desempenho em tarefas de conhecimento financeiro estático não necessariamente se traduz em estratégias de trading bem-sucedidas. Disponibilizamos o StockBench como um recurso de código aberto para apoiar a reprodutibilidade e avançar pesquisas futuras nesse domínio.
English
Large language models (LLMs) have recently demonstrated strong capabilities
as autonomous agents, showing promise in reasoning, tool use, and sequential
decision-making. While prior benchmarks have evaluated LLM agents in domains
such as software engineering and scientific discovery, the finance domain
remains underexplored, despite its direct relevance to economic value and
high-stakes decision-making. Existing financial benchmarks primarily test
static knowledge through question answering, but they fall short of capturing
the dynamic and iterative nature of trading. To address this gap, we introduce
StockBench, a contamination-free benchmark designed to evaluate LLM agents in
realistic, multi-month stock trading environments. Agents receive daily market
signals -- including prices, fundamentals, and news -- and must make sequential
buy, sell, or hold decisions. Performance is assessed using financial metrics
such as cumulative return, maximum drawdown, and the Sortino ratio. Our
evaluation of state-of-the-art proprietary (e.g., GPT-5, Claude-4) and
open-weight (e.g., Qwen3, Kimi-K2, GLM-4.5) models shows that while most LLM
agents struggle to outperform the simple buy-and-hold baseline, several models
demonstrate the potential to deliver higher returns and manage risk more
effectively. These findings highlight both the challenges and opportunities in
developing LLM-powered financial agents, showing that excelling at static
financial knowledge tasks does not necessarily translate into successful
trading strategies. We release StockBench as an open-source resource to support
reproducibility and advance future research in this domain.