ChatPaper.aiChatPaper

StockBench: ¿Pueden los agentes basados en LLM operar acciones de manera rentable en los mercados del mundo real?

StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?

October 2, 2025
Autores: Yanxu Chen, Zijun Yao, Yantao Liu, Jin Ye, Jianing Yu, Lei Hou, Juanzi Li
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado recientemente capacidades sólidas como agentes autónomos, mostrando potencial en razonamiento, uso de herramientas y toma de decisiones secuenciales. Si bien los puntos de referencia anteriores han evaluado a los agentes LLM en dominios como la ingeniería de software y el descubrimiento científico, el dominio financiero sigue siendo poco explorado, a pesar de su relevancia directa para el valor económico y la toma de decisiones de alto riesgo. Los puntos de referencia financieros existentes principalmente prueban el conocimiento estático a través de preguntas y respuestas, pero no logran capturar la naturaleza dinámica e iterativa del comercio. Para abordar esta brecha, presentamos StockBench, un punto de referencia libre de contaminación diseñado para evaluar a los agentes LLM en entornos realistas de comercio de acciones de varios meses. Los agentes reciben señales diarias del mercado —incluyendo precios, fundamentales y noticias— y deben tomar decisiones secuenciales de compra, venta o retención. El rendimiento se evalúa utilizando métricas financieras como el rendimiento acumulado, la máxima pérdida potencial y el ratio de Sortino. Nuestra evaluación de modelos propietarios de última generación (por ejemplo, GPT-5, Claude-4) y de peso abierto (por ejemplo, Qwen3, Kimi-K2, GLM-4.5) muestra que, aunque la mayoría de los agentes LLM tienen dificultades para superar la línea de base simple de comprar y mantener, varios modelos demuestran el potencial de ofrecer mayores rendimientos y gestionar el riesgo de manera más efectiva. Estos hallazgos destacan tanto los desafíos como las oportunidades en el desarrollo de agentes financieros impulsados por LLM, mostrando que sobresalir en tareas de conocimiento financiero estático no necesariamente se traduce en estrategias de comercio exitosas. Publicamos StockBench como un recurso de código abierto para apoyar la reproducibilidad y avanzar en futuras investigaciones en este dominio.
English
Large language models (LLMs) have recently demonstrated strong capabilities as autonomous agents, showing promise in reasoning, tool use, and sequential decision-making. While prior benchmarks have evaluated LLM agents in domains such as software engineering and scientific discovery, the finance domain remains underexplored, despite its direct relevance to economic value and high-stakes decision-making. Existing financial benchmarks primarily test static knowledge through question answering, but they fall short of capturing the dynamic and iterative nature of trading. To address this gap, we introduce StockBench, a contamination-free benchmark designed to evaluate LLM agents in realistic, multi-month stock trading environments. Agents receive daily market signals -- including prices, fundamentals, and news -- and must make sequential buy, sell, or hold decisions. Performance is assessed using financial metrics such as cumulative return, maximum drawdown, and the Sortino ratio. Our evaluation of state-of-the-art proprietary (e.g., GPT-5, Claude-4) and open-weight (e.g., Qwen3, Kimi-K2, GLM-4.5) models shows that while most LLM agents struggle to outperform the simple buy-and-hold baseline, several models demonstrate the potential to deliver higher returns and manage risk more effectively. These findings highlight both the challenges and opportunities in developing LLM-powered financial agents, showing that excelling at static financial knowledge tasks does not necessarily translate into successful trading strategies. We release StockBench as an open-source resource to support reproducibility and advance future research in this domain.
PDF474October 3, 2025