ChatPaper.aiChatPaper

AlphaQuanter: Un Marco de Aprendizaje por Refuerzo Agéntico Orquestado por Herramientas de Extremo a Extremo para el Comercio de Acciones

AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading

October 16, 2025
Autores: Zheye Deng, Jiashu Wang
cs.AI

Resumen

Si bien los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) muestran potencial en el comercio automatizado, aún enfrentan limitaciones críticas. Los marcos de trabajo multiagente más destacados a menudo presentan ineficiencias, generan señales inconsistentes y carecen de la optimización de extremo a extremo necesaria para aprender una estrategia coherente a partir de la retroalimentación del mercado. Para abordar esto, presentamos AlphaQuanter, un marco de trabajo de agente único que utiliza aprendizaje por refuerzo (RL, por sus siglas en inglés) para aprender una política dinámica sobre un flujo de trabajo de decisión aumentado con herramientas y transparente, lo que permite a un solo agente orquestar herramientas de manera autónoma y adquirir información de forma proactiva según la demanda, estableciendo un proceso de razonamiento transparente y auditable. Experimentos exhaustivos demuestran que AlphaQuanter alcanza un rendimiento de vanguardia en métricas financieras clave. Además, su razonamiento interpretable revela estrategias sofisticadas, ofreciendo perspectivas novedosas y valiosas para los operadores humanos. Nuestro código para la adquisición de datos y el entrenamiento del agente está disponible públicamente en: https://github.com/AlphaQuanter/AlphaQuanter.
English
While Large Language Model (LLM) agents show promise in automated trading, they still face critical limitations. Prominent multi-agent frameworks often suffer from inefficiency, produce inconsistent signals, and lack the end-to-end optimization required to learn a coherent strategy from market feedback. To address this, we introduce AlphaQuanter, a single-agent framework that uses reinforcement learning (RL) to learn a dynamic policy over a transparent, tool-augmented decision workflow, which empowers a single agent to autonomously orchestrate tools and proactively acquire information on demand, establishing a transparent and auditable reasoning process. Extensive experiments demonstrate that AlphaQuanter achieves state-of-the-art performance on key financial metrics. Moreover, its interpretable reasoning reveals sophisticated strategies, offering novel and valuable insights for human traders. Our code for data acquisition and agent training is publicly available at: https://github.com/AlphaQuanter/AlphaQuanter
PDF72October 22, 2025