ChatPaper.aiChatPaper

LiveTradeBench: Поиск реальной альфы с помощью больших языковых моделей

LiveTradeBench: Seeking Real-World Alpha with Large Language Models

November 5, 2025
Авторы: Haofei Yu, Fenghai Li, Jiaxuan You
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют высокие результаты в различных тестах — от викторин на знание и математических рассуждений до задач веб-агентов — но эти испытания проводятся в статичных условиях, лишенных реальной динамики и неопределенности. Как следствие, они оценивают изолированные рассуждения или решение проблем, а не принятие решений в условиях неопределенности. Чтобы решить эту проблему, мы представляем LiveTradeBench — живую торговую среду для оценки агентов на основе LLM в реалистичных и изменяющихся рыночных условиях. LiveTradeBench следует трем принципам проектирования: (i) Потоковая передача живых данных о рыночных ценах и новостях, что устраняет зависимость от офлайн-бэктестинга, предотвращает утечку информации и учитывает неопределенность в реальном времени; (ii) абстракция управления портфелем, расширяющая контроль от действий с одним активом до распределения нескольких активов, интегрирующая управление рисками и межактивные рассуждения; и (iii) оценка на нескольких рынках с структурно различными средами — акциями США и прогнозными рынками Polymarket — отличающимися волатильностью, ликвидностью и потоком информации. На каждом шаге агент наблюдает за ценами, новостями и своим портфелем, а затем выдает процентные распределения, балансирующие риск и доходность. Используя LiveTradeBench, мы провели 50-дневные живые оценки 21 LLM из разных семейств. Результаты показывают, что (1) высокие баллы в LMArena не гарантируют превосходных торговых результатов; (2) модели демонстрируют различные стили управления портфелем, отражающие аппетит к риску и динамику рассуждений; и (3) некоторые LLM эффективно используют живые сигналы для адаптации решений. Эти результаты выявляют разрыв между статической оценкой и реальной компетентностью, обосновывая необходимость тестов, проверяющих последовательное принятие решений и устойчивость в условиях живой неопределенности.
English
Large language models (LLMs) achieve strong performance across benchmarks--from knowledge quizzes and math reasoning to web-agent tasks--but these tests occur in static settings, lacking real dynamics and uncertainty. Consequently, they evaluate isolated reasoning or problem-solving rather than decision-making under uncertainty. To address this, we introduce LiveTradeBench, a live trading environment for evaluating LLM agents in realistic and evolving markets. LiveTradeBench follows three design principles: (i) Live data streaming of market prices and news, eliminating dependence on offline backtesting and preventing information leakage while capturing real-time uncertainty; (ii) a portfolio-management abstraction that extends control from single-asset actions to multi-asset allocation, integrating risk management and cross-asset reasoning; and (iii) multi-market evaluation across structurally distinct environments--U.S. stocks and Polymarket prediction markets--differing in volatility, liquidity, and information flow. At each step, an agent observes prices, news, and its portfolio, then outputs percentage allocations that balance risk and return. Using LiveTradeBench, we run 50-day live evaluations of 21 LLMs across families. Results show that (1) high LMArena scores do not imply superior trading outcomes; (2) models display distinct portfolio styles reflecting risk appetite and reasoning dynamics; and (3) some LLMs effectively leverage live signals to adapt decisions. These findings expose a gap between static evaluation and real-world competence, motivating benchmarks that test sequential decision making and consistency under live uncertainty.
PDF112December 1, 2025