LiveTradeBench : À la recherche d'alpha réel avec les modèles de langage de grande taille
LiveTradeBench: Seeking Real-World Alpha with Large Language Models
November 5, 2025
papers.authors: Haofei Yu, Fenghai Li, Jiaxuan You
cs.AI
papers.abstract
Les grands modèles de langage (LLM) démontrent des performances solides sur diverses benchmarks - allant des quiz de connaissances et du raisonnement mathématique aux tâches d'agents web - mais ces tests se déroulent dans des cadres statiques, dépourvus de dynamique réelle et d'incertitude. Par conséquent, ils évaluent un raisonnement ou une résolution de problèmes isolés plutôt qu'une prise de décision dans l'incertitude. Pour remédier à cela, nous présentons LiveTradeBench, un environnement de trading en temps réel conçu pour évaluer les agents LLM dans des marchés réalistes et évolutifs. LiveTradeBench suit trois principes de conception : (i) Un flux de données en direct sur les prix du marché et l'actualité, éliminant la dépendance au backtesting hors ligne et empêchant les fuites d'information tout en captant l'incertitude en temps réel ; (ii) une abstraction de la gestion de portefeuille qui étend le contrôle des actions sur un seul actif à l'allocation multi-actifs, intégrant la gestion des risques et le raisonnement cross-actifs ; et (iii) une évaluation multi-marchés couvrant des environnements structurellement distincts - les actions américaines et les marchés prédictifs Polymarket - différant en termes de volatilité, de liquidité et de flux d'information. À chaque étape, un agent observe les prix, l'actualité et son portefeuille, puis produit des allocations en pourcentage qui équilibrent risque et rendement. En utilisant LiveTradeBench, nous avons mené des évaluations en direct sur 50 jours pour 21 LLM de différentes familles. Les résultats montrent que (1) des scores élevés sur LMArena n'impliquent pas de meilleurs résultats en trading ; (2) les modèles affichent des styles de portefeuille distincts reflétant leur appétence pour le risque et leur dynamique de raisonnement ; et (3) certains LLM exploitent efficacement les signaux en direct pour adapter leurs décisions. Ces résultats mettent en lumière un écart entre l'évaluation statique et la compétence dans le monde réel, motivant le développement de benchmarks testant la prise de décision séquentielle et la cohérence face à l'incertitude en temps réel.
English
Large language models (LLMs) achieve strong performance across
benchmarks--from knowledge quizzes and math reasoning to web-agent tasks--but
these tests occur in static settings, lacking real dynamics and uncertainty.
Consequently, they evaluate isolated reasoning or problem-solving rather than
decision-making under uncertainty. To address this, we introduce
LiveTradeBench, a live trading environment for evaluating LLM agents in
realistic and evolving markets. LiveTradeBench follows three design principles:
(i) Live data streaming of market prices and news, eliminating dependence on
offline backtesting and preventing information leakage while capturing
real-time uncertainty; (ii) a portfolio-management abstraction that extends
control from single-asset actions to multi-asset allocation, integrating risk
management and cross-asset reasoning; and (iii) multi-market evaluation across
structurally distinct environments--U.S. stocks and Polymarket prediction
markets--differing in volatility, liquidity, and information flow. At each
step, an agent observes prices, news, and its portfolio, then outputs
percentage allocations that balance risk and return. Using LiveTradeBench, we
run 50-day live evaluations of 21 LLMs across families. Results show that (1)
high LMArena scores do not imply superior trading outcomes; (2) models display
distinct portfolio styles reflecting risk appetite and reasoning dynamics; and
(3) some LLMs effectively leverage live signals to adapt decisions. These
findings expose a gap between static evaluation and real-world competence,
motivating benchmarks that test sequential decision making and consistency
under live uncertainty.