StockBench: Могут ли агенты на основе больших языковых моделей прибыльно торговать акциями на реальных рынках?
StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?
October 2, 2025
Авторы: Yanxu Chen, Zijun Yao, Yantao Liu, Jin Ye, Jianing Yu, Lei Hou, Juanzi Li
cs.AI
Аннотация
Крупные языковые модели (LLM) недавно продемонстрировали значительные возможности в качестве автономных агентов, показав потенциал в рассуждениях, использовании инструментов и последовательном принятии решений. Хотя предыдущие бенчмарки оценивали LLM-агентов в таких областях, как разработка программного обеспечения и научные открытия, финансовая сфера остается недостаточно изученной, несмотря на ее непосредственную связь с экономической ценностью и принятием решений в условиях высоких рисков. Существующие финансовые бенчмарки в основном тестируют статические знания через ответы на вопросы, но они не охватывают динамическую и итеративную природу торговли. Чтобы устранить этот пробел, мы представляем StockBench — бенчмарк, свободный от контаминации, предназначенный для оценки LLM-агентов в реалистичных условиях многомесячной торговли акциями. Агенты получают ежедневные рыночные сигналы, включая цены, фундаментальные данные и новости, и должны принимать последовательные решения о покупке, продаже или удержании. Производительность оценивается с использованием финансовых метрик, таких как совокупная доходность, максимальная просадка и коэффициент Сортино. Наша оценка современных проприетарных (например, GPT-5, Claude-4) и открытых (например, Qwen3, Kimi-K2, GLM-4.5) моделей показывает, что, хотя большинство LLM-агентов не могут превзойти простую стратегию "купи и держи", несколько моделей демонстрируют потенциал для достижения более высокой доходности и более эффективного управления рисками. Эти результаты подчеркивают как вызовы, так и возможности в разработке финансовых агентов на основе LLM, показывая, что успех в задачах на статические финансовые знания не обязательно приводит к успешным торговым стратегиям. Мы выпускаем StockBench как открытый ресурс для поддержки воспроизводимости и продвижения будущих исследований в этой области.
English
Large language models (LLMs) have recently demonstrated strong capabilities
as autonomous agents, showing promise in reasoning, tool use, and sequential
decision-making. While prior benchmarks have evaluated LLM agents in domains
such as software engineering and scientific discovery, the finance domain
remains underexplored, despite its direct relevance to economic value and
high-stakes decision-making. Existing financial benchmarks primarily test
static knowledge through question answering, but they fall short of capturing
the dynamic and iterative nature of trading. To address this gap, we introduce
StockBench, a contamination-free benchmark designed to evaluate LLM agents in
realistic, multi-month stock trading environments. Agents receive daily market
signals -- including prices, fundamentals, and news -- and must make sequential
buy, sell, or hold decisions. Performance is assessed using financial metrics
such as cumulative return, maximum drawdown, and the Sortino ratio. Our
evaluation of state-of-the-art proprietary (e.g., GPT-5, Claude-4) and
open-weight (e.g., Qwen3, Kimi-K2, GLM-4.5) models shows that while most LLM
agents struggle to outperform the simple buy-and-hold baseline, several models
demonstrate the potential to deliver higher returns and manage risk more
effectively. These findings highlight both the challenges and opportunities in
developing LLM-powered financial agents, showing that excelling at static
financial knowledge tasks does not necessarily translate into successful
trading strategies. We release StockBench as an open-source resource to support
reproducibility and advance future research in this domain.