라이브트레이드벤치: 대규모 언어 모델을 활용한 실제 투자 수익률 창출 탐구
LiveTradeBench: Seeking Real-World Alpha with Large Language Models
November 5, 2025
저자: Haofei Yu, Fenghai Li, Jiaxuan You
cs.AI
초록
대규모 언어 모델(LLM)은 지식 퀴즈와 수학적 추론부터 웹 에이전트 작업에 이르기까지 다양한 벤치마크에서 강력한 성능을 보여주지만, 이러한 테스트는 정적 환경에서 진행되어 실제 역동성과 불확실성이 부족합니다. 결과적으로, 이들은 불확실성 하의 의사 결정보다는 고립된 추론이나 문제 해결 능력을 평가하게 됩니다. 이를 해결하기 위해 우리는 현실적이고 진화하는 시장에서 LLM 에이전트를 평가하기 위한 실시간 트레이딩 환경인 LiveTradeBench를 소개합니다. LiveTradeBench는 세 가지 설계 원칙을 따릅니다: (i) 시장 가격과 뉴스의 실시간 데이터 스트리밍을 통해 오프라인 백테스트 의존성을 제거하고 정보 유출을 방지하면서 실시간 불확실성을 포착합니다; (ii) 단일 자산 행동에서 다중 자산 배분으로 제어 범위를 확장하는 포트폴리오 관리 추상화로, 위험 관리와 크로스-자산 추론을 통합합니다; (iii) 변동성, 유동성, 정보 흐름이 다른 구조적으로 구별된 환경(미국 주식 시장과 Polymarket 예측 시장)에서의 다중 시장 평가입니다. 각 단계에서 에이전트는 가격, 뉴스, 자신의 포트폴리오를 관찰한 후 위험과 수익을 균형 있게 조정하는 비율 기반 자산 배분을 출력합니다. LiveTradeBench를 사용하여 우리는 다양한 계열의 21개 LLM에 대해 50일간의 실시간 평가를 수행했습니다. 결과는 (1) 높은 LMArena 점수가 우수한 트레이딩 결과를 보장하지 않으며, (2) 모델들이 위험 선호도와 추론 역학을 반영하는 뚜렷한 포트폴리오 스타일을 보여주고, (3) 일부 LLM이 실시간 신호를 효과적으로 활용하여 의사 결정을 적응시킨다는 것을 보여줍니다. 이러한 발견은 정적 평가와 현실 세계 역량 간의 격차를 드러내며, 실시간 불확실성 하에서의 순차적 의사 결정과 일관성을 검증하는 벤치마크의 필요성을 제기합니다.
English
Large language models (LLMs) achieve strong performance across
benchmarks--from knowledge quizzes and math reasoning to web-agent tasks--but
these tests occur in static settings, lacking real dynamics and uncertainty.
Consequently, they evaluate isolated reasoning or problem-solving rather than
decision-making under uncertainty. To address this, we introduce
LiveTradeBench, a live trading environment for evaluating LLM agents in
realistic and evolving markets. LiveTradeBench follows three design principles:
(i) Live data streaming of market prices and news, eliminating dependence on
offline backtesting and preventing information leakage while capturing
real-time uncertainty; (ii) a portfolio-management abstraction that extends
control from single-asset actions to multi-asset allocation, integrating risk
management and cross-asset reasoning; and (iii) multi-market evaluation across
structurally distinct environments--U.S. stocks and Polymarket prediction
markets--differing in volatility, liquidity, and information flow. At each
step, an agent observes prices, news, and its portfolio, then outputs
percentage allocations that balance risk and return. Using LiveTradeBench, we
run 50-day live evaluations of 21 LLMs across families. Results show that (1)
high LMArena scores do not imply superior trading outcomes; (2) models display
distinct portfolio styles reflecting risk appetite and reasoning dynamics; and
(3) some LLMs effectively leverage live signals to adapt decisions. These
findings expose a gap between static evaluation and real-world competence,
motivating benchmarks that test sequential decision making and consistency
under live uncertainty.