LiveTradeBench: 大規模言語モデルによる実世界のアルファ獲得を目指して
LiveTradeBench: Seeking Real-World Alpha with Large Language Models
November 5, 2025
著者: Haofei Yu, Fenghai Li, Jiaxuan You
cs.AI
要旨
大規模言語モデル(LLM)は、知識クイズや数学的推論からWebエージェントタスクに至るまで、様々なベンチマークで高い性能を発揮している。しかし、これらのテストは静的な環境で実施され、現実のダイナミクスや不確実性を欠いている。その結果、不確実性下での意思決定ではなく、孤立した推論や問題解決能力のみを評価することになる。この問題に対処するため、我々は現実的かつ変化する市場環境でLLMエージェントを評価するライブ取引環境「LiveTradeBench」を提案する。LiveTradeBenchは以下の3つの設計原則に基づく:(i) 市場価格とニュースのライブデータストリーミングにより、オフラインでのバックテスト依存性を排除し情報漏洩を防ぎつつ、リアルタイムの不確実性を捕捉;(ii) 単一資産の取引行動から複数資産の配分へと制御を拡張するポートフォリオ管理の抽象化により、リスク管理と資産間推論を統合;(iii) ボラティリティ・流動性・情報フローが異なる構造的に異なる市場環境(米国株式市場とPolymarket予測市場)でのマルチ市場評価。各ステップでエージェントは価格・ニュース・自身のポートフォリオを観察し、リスクとリターンのバランスを考慮した割合ベースの資産配分を出力する。LiveTradeBenchを用いて、主要ファミリーに属する21のLLMに対し50日間のライブ評価を実施。結果は、(1) LMArenaの高スコアが優れた取引成果を保証しないこと、(2) モデルがリスク選好や推論のダイナミクスを反映した独自のポートフォリオスタイルを示すこと、(3) 一部のLLMがライブシグナルを効果的に活用して意思決定を適応させることを明らかにした。これらの発見は、静的評価と実世界での能力の間に隔たりがあることを露呈し、ライブ不確実性下での逐次的意思決定と一貫性を試すベンチマークの必要性を示唆する。
English
Large language models (LLMs) achieve strong performance across
benchmarks--from knowledge quizzes and math reasoning to web-agent tasks--but
these tests occur in static settings, lacking real dynamics and uncertainty.
Consequently, they evaluate isolated reasoning or problem-solving rather than
decision-making under uncertainty. To address this, we introduce
LiveTradeBench, a live trading environment for evaluating LLM agents in
realistic and evolving markets. LiveTradeBench follows three design principles:
(i) Live data streaming of market prices and news, eliminating dependence on
offline backtesting and preventing information leakage while capturing
real-time uncertainty; (ii) a portfolio-management abstraction that extends
control from single-asset actions to multi-asset allocation, integrating risk
management and cross-asset reasoning; and (iii) multi-market evaluation across
structurally distinct environments--U.S. stocks and Polymarket prediction
markets--differing in volatility, liquidity, and information flow. At each
step, an agent observes prices, news, and its portfolio, then outputs
percentage allocations that balance risk and return. Using LiveTradeBench, we
run 50-day live evaluations of 21 LLMs across families. Results show that (1)
high LMArena scores do not imply superior trading outcomes; (2) models display
distinct portfolio styles reflecting risk appetite and reasoning dynamics; and
(3) some LLMs effectively leverage live signals to adapt decisions. These
findings expose a gap between static evaluation and real-world competence,
motivating benchmarks that test sequential decision making and consistency
under live uncertainty.