LiveTradeBench: Em Busca de Alfa do Mundo Real com Modelos de Linguagem de Grande Porte

Resumo

Os modelos de linguagem de grande escala (LLMs) demonstram alto desempenho em diversos *benchmarks* – desde questionários de conhecimento e raciocínio matemático até tarefas de agentes web – mas esses testes ocorrem em ambientes estáticos, carecendo de dinâmica real e incerteza. Consequentemente, eles avaliam o raciocínio ou a resolução de problemas de forma isolada, em vez da tomada de decisão sob incerteza. Para resolver isso, apresentamos o LiveTradeBench, um ambiente de negociação em tempo real para avaliar agentes de LLM em mercados realistas e em evolução. O LiveTradeBench segue três princípios de design: (i) Transmissão de dados em tempo real de preços de mercado e notícias, eliminando a dependência de *backtesting* offline e prevenindo o vazamento de informações, ao mesmo tempo que captura a incerteza em tempo real; (ii) uma abstração de gestão de carteira que estende o controle de ações com um único ativo para a alocação de múltiplos ativos, integrando a gestão de risco e o raciocínio entre ativos; e (iii) avaliação multi-mercado em ambientes estruturalmente distintos – ações norte-americanas e mercados de previsão Polymarket – que diferem em volatilidade, liquidez e fluxo de informações. A cada passo, um agente observa os preços, as notícias e sua carteira, e depois produz alocações percentuais que equilibram risco e retorno. Usando o LiveTradeBench, realizamos avaliações em tempo real de 50 dias com 21 LLMs de diferentes famílias. Os resultados mostram que (1) altas pontuações no LMArena não implicam resultados comerciais superiores; (2) os modelos exibem estilos de carteira distintos que refletem a apetite ao risco e a dinâmica de raciocínio; e (3) alguns LLMs aproveitam efetivamente os sinais em tempo real para adaptar as decisões. Essas descobertas expõem uma lacuna entre a avaliação estática e a competência no mundo real, motivando *benchmarks* que testam a tomada de decisão sequencial e a consistência sob incerteza em tempo real.

English

Large language models (LLMs) achieve strong performance across benchmarks--from knowledge quizzes and math reasoning to web-agent tasks--but these tests occur in static settings, lacking real dynamics and uncertainty. Consequently, they evaluate isolated reasoning or problem-solving rather than decision-making under uncertainty. To address this, we introduce LiveTradeBench, a live trading environment for evaluating LLM agents in realistic and evolving markets. LiveTradeBench follows three design principles: (i) Live data streaming of market prices and news, eliminating dependence on offline backtesting and preventing information leakage while capturing real-time uncertainty; (ii) a portfolio-management abstraction that extends control from single-asset actions to multi-asset allocation, integrating risk management and cross-asset reasoning; and (iii) multi-market evaluation across structurally distinct environments--U.S. stocks and Polymarket prediction markets--differing in volatility, liquidity, and information flow. At each step, an agent observes prices, news, and its portfolio, then outputs percentage allocations that balance risk and return. Using LiveTradeBench, we run 50-day live evaluations of 21 LLMs across families. Results show that (1) high LMArena scores do not imply superior trading outcomes; (2) models display distinct portfolio styles reflecting risk appetite and reasoning dynamics; and (3) some LLMs effectively leverage live signals to adapt decisions. These findings expose a gap between static evaluation and real-world competence, motivating benchmarks that test sequential decision making and consistency under live uncertainty.

LiveTradeBench: Em Busca de Alfa do Mundo Real com Modelos de Linguagem de Grande Porte

LiveTradeBench: Seeking Real-World Alpha with Large Language Models

Resumo

Support