StockBench: Могут ли агенты на основе больших языковых моделей прибыльно торговать акциями на реальных рынках?

Аннотация

Крупные языковые модели (LLM) недавно продемонстрировали значительные возможности в качестве автономных агентов, показав потенциал в рассуждениях, использовании инструментов и последовательном принятии решений. Хотя предыдущие бенчмарки оценивали LLM-агентов в таких областях, как разработка программного обеспечения и научные открытия, финансовая сфера остается недостаточно изученной, несмотря на ее непосредственную связь с экономической ценностью и принятием решений в условиях высоких рисков. Существующие финансовые бенчмарки в основном тестируют статические знания через ответы на вопросы, но они не охватывают динамическую и итеративную природу торговли. Чтобы устранить этот пробел, мы представляем StockBench — бенчмарк, свободный от контаминации, предназначенный для оценки LLM-агентов в реалистичных условиях многомесячной торговли акциями. Агенты получают ежедневные рыночные сигналы, включая цены, фундаментальные данные и новости, и должны принимать последовательные решения о покупке, продаже или удержании. Производительность оценивается с использованием финансовых метрик, таких как совокупная доходность, максимальная просадка и коэффициент Сортино. Наша оценка современных проприетарных (например, GPT-5, Claude-4) и открытых (например, Qwen3, Kimi-K2, GLM-4.5) моделей показывает, что, хотя большинство LLM-агентов не могут превзойти простую стратегию "купи и держи", несколько моделей демонстрируют потенциал для достижения более высокой доходности и более эффективного управления рисками. Эти результаты подчеркивают как вызовы, так и возможности в разработке финансовых агентов на основе LLM, показывая, что успех в задачах на статические финансовые знания не обязательно приводит к успешным торговым стратегиям. Мы выпускаем StockBench как открытый ресурс для поддержки воспроизводимости и продвижения будущих исследований в этой области.

English

Large language models (LLMs) have recently demonstrated strong capabilities as autonomous agents, showing promise in reasoning, tool use, and sequential decision-making. While prior benchmarks have evaluated LLM agents in domains such as software engineering and scientific discovery, the finance domain remains underexplored, despite its direct relevance to economic value and high-stakes decision-making. Existing financial benchmarks primarily test static knowledge through question answering, but they fall short of capturing the dynamic and iterative nature of trading. To address this gap, we introduce StockBench, a contamination-free benchmark designed to evaluate LLM agents in realistic, multi-month stock trading environments. Agents receive daily market signals -- including prices, fundamentals, and news -- and must make sequential buy, sell, or hold decisions. Performance is assessed using financial metrics such as cumulative return, maximum drawdown, and the Sortino ratio. Our evaluation of state-of-the-art proprietary (e.g., GPT-5, Claude-4) and open-weight (e.g., Qwen3, Kimi-K2, GLM-4.5) models shows that while most LLM agents struggle to outperform the simple buy-and-hold baseline, several models demonstrate the potential to deliver higher returns and manage risk more effectively. These findings highlight both the challenges and opportunities in developing LLM-powered financial agents, showing that excelling at static financial knowledge tasks does not necessarily translate into successful trading strategies. We release StockBench as an open-source resource to support reproducibility and advance future research in this domain.