AlphaQuanter: Um Framework de Aprendizado por Reforço Agente Orquestrado por Ferramentas de Ponta a Ponta para Negociação de Ações

Resumo

Embora os agentes de Modelos de Linguagem de Grande Escala (LLM) mostrem potencial no trading automatizado, eles ainda enfrentam limitações críticas. Estruturas multiagentes proeminentes frequentemente sofrem com ineficiência, produzem sinais inconsistentes e carecem da otimização de ponta a ponta necessária para aprender uma estratégia coerente com base no feedback do mercado. Para abordar isso, introduzimos o AlphaQuanter, uma estrutura de agente único que utiliza aprendizado por reforço (RL) para aprender uma política dinâmica sobre um fluxo de trabalho de decisão transparente e aumentado por ferramentas, capacitando um único agente a orquestrar ferramentas de forma autônoma e adquirir informações proativamente sob demanda, estabelecendo um processo de raciocínio transparente e auditável. Experimentos extensivos demonstram que o AlphaQuanter alcança desempenho de ponta em métricas financeiras-chave. Além disso, seu raciocínio interpretável revela estratégias sofisticadas, oferecendo insights novos e valiosos para traders humanos. Nosso código para aquisição de dados e treinamento do agente está publicamente disponível em: https://github.com/AlphaQuanter/AlphaQuanter

English

While Large Language Model (LLM) agents show promise in automated trading, they still face critical limitations. Prominent multi-agent frameworks often suffer from inefficiency, produce inconsistent signals, and lack the end-to-end optimization required to learn a coherent strategy from market feedback. To address this, we introduce AlphaQuanter, a single-agent framework that uses reinforcement learning (RL) to learn a dynamic policy over a transparent, tool-augmented decision workflow, which empowers a single agent to autonomously orchestrate tools and proactively acquire information on demand, establishing a transparent and auditable reasoning process. Extensive experiments demonstrate that AlphaQuanter achieves state-of-the-art performance on key financial metrics. Moreover, its interpretable reasoning reveals sophisticated strategies, offering novel and valuable insights for human traders. Our code for data acquisition and agent training is publicly available at: https://github.com/AlphaQuanter/AlphaQuanter

AlphaQuanter: Um Framework de Aprendizado por Reforço Agente Orquestrado por Ferramentas de Ponta a Ponta para Negociação de Ações

AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading

Resumo

Support