ChatPaper.aiChatPaper

LiveTradeBench: Op Zoek naar Real-World Alpha met Grote Taalmodellen

LiveTradeBench: Seeking Real-World Alpha with Large Language Models

November 5, 2025
Auteurs: Haofei Yu, Fenghai Li, Jiaxuan You
cs.AI

Samenvatting

Grote taalmodellen (LLM's) leveren sterke prestaties op diverse benchmarks – van kennisquizzen en wiskundig redeneren tot web-agenttaken – maar deze tests vinden plaats in statische omgevingen, zonder echte dynamiek en onzekerheid. Hierdoor evalueren ze geïsoleerd redeneer- of probleemoplossend vermogen in plaats van besluitvorming onder onzekerheid. Om dit aan te pakken, introduceren we LiveTradeBench, een live handelsomgeving voor het evalueren van LLM-agenten in realistische en zich ontwikkelende markten. LiveTradeBench volgt drie ontwerpprincipes: (i) Live datastromen van marktprijzen en nieuws, waardoor afhankelijkheid van offline backtesting wordt geëlimineerd en informatielekken worden voorkomen, terwijl real-time onzekerheid wordt vastgelegd; (ii) een portefeuillebeheerabstractie die de controle uitbreidt van acties met één asset naar allocatie van multiple assets, waarbij risicobeheer en cross-asset redeneren worden geïntegreerd; en (iii) multi-marktevaluatie in structureel verschillende omgevingen – Amerikaanse aandelen en Polymarket voorspellingsmarkten – die verschillen in volatiliteit, liquiditeit en informatiestroom. Bij elke stap observeert een agent prijzen, nieuws en zijn portefeuille, en geeft vervolgens percentageallocaties uit die risico en rendement in balans brengen. Met LiveTradeBench voerden we 50-daagse live evaluaties uit van 21 LLM's uit verschillende modelfamilies. Resultaten tonen aan dat (1) hoge LMArena-scores niet wijzen op superieure handelsresultaten; (2) modellen verschillende portefeuillestijlen vertonen die risicobereidheid en redeneerdynamiek reflecteren; en (3) sommige LLM's effectief gebruikmaken van live signalen om beslissingen aan te passen. Deze bevindingen leggen een kloof bloot tussen statische evaluatie en competentie in de echte wereld, wat de motivatie vormt voor benchmarks die sequentiële besluitvorming en consistentie onder live onzekerheid testen.
English
Large language models (LLMs) achieve strong performance across benchmarks--from knowledge quizzes and math reasoning to web-agent tasks--but these tests occur in static settings, lacking real dynamics and uncertainty. Consequently, they evaluate isolated reasoning or problem-solving rather than decision-making under uncertainty. To address this, we introduce LiveTradeBench, a live trading environment for evaluating LLM agents in realistic and evolving markets. LiveTradeBench follows three design principles: (i) Live data streaming of market prices and news, eliminating dependence on offline backtesting and preventing information leakage while capturing real-time uncertainty; (ii) a portfolio-management abstraction that extends control from single-asset actions to multi-asset allocation, integrating risk management and cross-asset reasoning; and (iii) multi-market evaluation across structurally distinct environments--U.S. stocks and Polymarket prediction markets--differing in volatility, liquidity, and information flow. At each step, an agent observes prices, news, and its portfolio, then outputs percentage allocations that balance risk and return. Using LiveTradeBench, we run 50-day live evaluations of 21 LLMs across families. Results show that (1) high LMArena scores do not imply superior trading outcomes; (2) models display distinct portfolio styles reflecting risk appetite and reasoning dynamics; and (3) some LLMs effectively leverage live signals to adapt decisions. These findings expose a gap between static evaluation and real-world competence, motivating benchmarks that test sequential decision making and consistency under live uncertainty.
PDF112December 1, 2025