ChatPaper.aiChatPaper

LiveTradeBench: Alla Ricerca di Alpha nel Mondo Reale con i Grandi Modelli Linguistici

LiveTradeBench: Seeking Real-World Alpha with Large Language Models

November 5, 2025
Autori: Haofei Yu, Fenghai Li, Jiaxuan You
cs.AI

Abstract

I grandi modelli linguistici (LLM) ottengono prestazioni solide in numerosi benchmark, che spaziano da quiz di conoscenza e ragionamento matematico a compiti di web-agent, ma questi test avvengono in contesti statici, privi di dinamicità e incertezza reali. Di conseguenza, valutano un ragionamento o un problem-solving isolati piuttosto che un processo decisionale in condizioni di incertezza. Per affrontare questa limitazione, introduciamo LiveTradeBench, un ambiente di trading in tempo reale progettato per valutare agenti basati su LLM in mercati realistici ed evolutivi. LiveTradeBench segue tre principi progettuali: (i) flusso di dati in tempo reale sui prezzi di mercato e sulle notizie, eliminando la dipendenza dal backtesting offline e prevenendo la fuga di informazioni, catturando al contempo l'incertezza in tempo reale; (ii) un'astrazione di gestione del portafoglio che estende il controllo dalle azioni su singoli asset all'allocazione multi-asset, integrando la gestione del rischio e il ragionamento cross-asset; e (iii) una valutazione multi-mercato in ambienti strutturalmente distinti – azioni statunitensi e mercati predittivi di Polymarket – che differiscono in termini di volatilità, liquidità e flusso informativo. A ogni step, un agente osserva i prezzi, le notizie e il proprio portafoglio, per poi generare allocazioni percentuali che bilanciano rischio e rendimento. Utilizzando LiveTradeBench, abbiamo condotto valutazioni in tempo reale della durata di 50 giorni su 21 LLM di diverse famiglie. I risultati mostrano che (1) punteggi elevati su LMArena non implicano esiti di trading superiori; (2) i modelli mostrano stili di portafoglio distinti che riflettono la propensione al rischio e le dinamiche di ragionamento; e (3) alcuni LLM sfruttano efficacemente i segnali in tempo reale per adattare le decisioni. Questi risultati evidenziano un divario tra la valutazione statica e la competenza nel mondo reale, motivando lo sviluppo di benchmark che testino il processo decisionale sequenziale e la coerenza in condizioni di incertezza dinamica.
English
Large language models (LLMs) achieve strong performance across benchmarks--from knowledge quizzes and math reasoning to web-agent tasks--but these tests occur in static settings, lacking real dynamics and uncertainty. Consequently, they evaluate isolated reasoning or problem-solving rather than decision-making under uncertainty. To address this, we introduce LiveTradeBench, a live trading environment for evaluating LLM agents in realistic and evolving markets. LiveTradeBench follows three design principles: (i) Live data streaming of market prices and news, eliminating dependence on offline backtesting and preventing information leakage while capturing real-time uncertainty; (ii) a portfolio-management abstraction that extends control from single-asset actions to multi-asset allocation, integrating risk management and cross-asset reasoning; and (iii) multi-market evaluation across structurally distinct environments--U.S. stocks and Polymarket prediction markets--differing in volatility, liquidity, and information flow. At each step, an agent observes prices, news, and its portfolio, then outputs percentage allocations that balance risk and return. Using LiveTradeBench, we run 50-day live evaluations of 21 LLMs across families. Results show that (1) high LMArena scores do not imply superior trading outcomes; (2) models display distinct portfolio styles reflecting risk appetite and reasoning dynamics; and (3) some LLMs effectively leverage live signals to adapt decisions. These findings expose a gap between static evaluation and real-world competence, motivating benchmarks that test sequential decision making and consistency under live uncertainty.
PDF112December 1, 2025