LiveTradeBench: Auf der Suche nach realer Alpha-Performance mit Large Language Models
LiveTradeBench: Seeking Real-World Alpha with Large Language Models
November 5, 2025
papers.authors: Haofei Yu, Fenghai Li, Jiaxuan You
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) erzielen starke Leistungen in Benchmarks – von Wissenstests und mathematischem Denken bis hin zu Web-Agenten-Aufgaben – doch diese Tests finden in statischen Umgebungen statt, denen echte Dynamik und Unsicherheit fehlen. Folglich bewerten sie isoliertes Schlussfolgern oder Problemlösen anstatt Entscheidungsfindung unter Unsicherheit. Um dies zu adressieren, führen wir LiveTradeBench ein, eine Live-Handelsumgebung zur Bewertung von LLM-Agenten in realistischen und sich entwickelnden Märkten. LiveTradeBench folgt drei Designprinzipien: (i) Live-Datenstrom von Marktpreisen und Nachrichten, der die Abhängigkeit von Offline-Backtesting eliminiert und Informationslecks verhindert, während gleichzeitig Echtzeit-Unsicherheit erfasst wird; (ii) eine Portfoliomanagement-Abstraktion, die die Kontrolle von Einzel-Asset-Aktionen auf Multi-Asset-Allokation erweitert und Risikomanagement sowie assetübergreifendes Denken integriert; und (iii) Multi-Markt-Bewertung über strukturell unterschiedliche Umgebungen – US-Aktien und Polymarket-Vorhersagemärkte – die sich in Volatilität, Liquidität und Informationsfluss unterscheiden. In jedem Schritt beobachtet ein Agent Preise, Nachrichten und sein Portfolio und gibt dann prozentuale Allokationen aus, die Risiko und Ertrag abwägen. Mit LiveTradeBench führen wir 50-tägige Live-Evaluierungen von 21 LLMs verschiedener Modellfamilien durch. Die Ergebnisse zeigen, dass (1) hohe LMArena-Scores keine überlegenen Handelsergebnisse implizieren; (2) Modelle distincte Portfolio-Stile zeigen, die Risikobereitschaft und Denkdynamik widerspiegeln; und (3) einige LLMs Live-Signale effektiv nutzen, um Entscheidungen anzupassen. Diese Ergebnisse decken eine Lücke zwischen statischer Evaluation und realer Kompetenz auf und motivieren Benchmarks, die sequenzielle Entscheidungsfindung und Konsistenz unter Live-Unsicherheit testen.
English
Large language models (LLMs) achieve strong performance across
benchmarks--from knowledge quizzes and math reasoning to web-agent tasks--but
these tests occur in static settings, lacking real dynamics and uncertainty.
Consequently, they evaluate isolated reasoning or problem-solving rather than
decision-making under uncertainty. To address this, we introduce
LiveTradeBench, a live trading environment for evaluating LLM agents in
realistic and evolving markets. LiveTradeBench follows three design principles:
(i) Live data streaming of market prices and news, eliminating dependence on
offline backtesting and preventing information leakage while capturing
real-time uncertainty; (ii) a portfolio-management abstraction that extends
control from single-asset actions to multi-asset allocation, integrating risk
management and cross-asset reasoning; and (iii) multi-market evaluation across
structurally distinct environments--U.S. stocks and Polymarket prediction
markets--differing in volatility, liquidity, and information flow. At each
step, an agent observes prices, news, and its portfolio, then outputs
percentage allocations that balance risk and return. Using LiveTradeBench, we
run 50-day live evaluations of 21 LLMs across families. Results show that (1)
high LMArena scores do not imply superior trading outcomes; (2) models display
distinct portfolio styles reflecting risk appetite and reasoning dynamics; and
(3) some LLMs effectively leverage live signals to adapt decisions. These
findings expose a gap between static evaluation and real-world competence,
motivating benchmarks that test sequential decision making and consistency
under live uncertainty.