LiveTradeBench: Búsqueda de Alfa en el Mundo Real con Modelos de Lenguaje a Gran Escala
LiveTradeBench: Seeking Real-World Alpha with Large Language Models
November 5, 2025
Autores: Haofei Yu, Fenghai Li, Jiaxuan You
cs.AI
Resumen
Los modelos de lenguaje grandes (LLM) logran un alto rendimiento en diversos puntos de referencia, desde cuestionarios de conocimiento y razonamiento matemático hasta tareas de agentes web. Sin embargo, estas pruebas se realizan en entornos estáticos, carentes de dinámica real e incertidumbre. En consecuencia, evalúan el razonamiento o la resolución de problemas de forma aislada, en lugar de la toma de decisiones bajo incertidumbre. Para abordar esto, presentamos LiveTradeBench, un entorno de trading en vivo para evaluar agentes de LLM en mercados realistas y en evolución. LiveTradeBench sigue tres principios de diseño: (i) Flujo de datos en vivo de precios de mercado y noticias, eliminando la dependencia de pruebas retrospectivas (backtesting) fuera de línea y previniendo la filtración de información, mientras captura la incertidumbre en tiempo real; (ii) una abstracción de gestión de carteras que extiende el control desde acciones sobre un solo activo hasta la asignación multi-activo, integrando la gestión de riesgos y el razonamiento entre activos; y (iii) evaluación multi-mercado en entornos estructuralmente distintos—acciones estadounidenses y mercados de predicción de Polymarket—que difieren en volatilidad, liquidez y flujo de información. En cada paso, un agente observa los precios, las noticias y su cartera, y luego genera asignaciones porcentuales que equilibran riesgo y rendimiento. Utilizando LiveTradeBench, ejecutamos evaluaciones en vivo de 50 días con 21 LLMs de diferentes familias. Los resultados muestran que (1) puntuaciones altas en LMArena no implican resultados de trading superiores; (2) los modelos muestran estilos de cartera distintos que reflejan su apetito por el riesgo y la dinámica de su razonamiento; y (3) algunos LLMs aprovechan eficazmente las señales en vivo para adaptar sus decisiones. Estos hallazgos exponen una brecha entre la evaluación estática y la competencia en el mundo real, motivando la creación de puntos de referencia que prueben la toma de decisiones secuencial y la consistencia bajo incertidumbre en vivo.
English
Large language models (LLMs) achieve strong performance across
benchmarks--from knowledge quizzes and math reasoning to web-agent tasks--but
these tests occur in static settings, lacking real dynamics and uncertainty.
Consequently, they evaluate isolated reasoning or problem-solving rather than
decision-making under uncertainty. To address this, we introduce
LiveTradeBench, a live trading environment for evaluating LLM agents in
realistic and evolving markets. LiveTradeBench follows three design principles:
(i) Live data streaming of market prices and news, eliminating dependence on
offline backtesting and preventing information leakage while capturing
real-time uncertainty; (ii) a portfolio-management abstraction that extends
control from single-asset actions to multi-asset allocation, integrating risk
management and cross-asset reasoning; and (iii) multi-market evaluation across
structurally distinct environments--U.S. stocks and Polymarket prediction
markets--differing in volatility, liquidity, and information flow. At each
step, an agent observes prices, news, and its portfolio, then outputs
percentage allocations that balance risk and return. Using LiveTradeBench, we
run 50-day live evaluations of 21 LLMs across families. Results show that (1)
high LMArena scores do not imply superior trading outcomes; (2) models display
distinct portfolio styles reflecting risk appetite and reasoning dynamics; and
(3) some LLMs effectively leverage live signals to adapt decisions. These
findings expose a gap between static evaluation and real-world competence,
motivating benchmarks that test sequential decision making and consistency
under live uncertainty.