ChatPaper.aiChatPaper

FLAG-Trader: Fusão de Agente LLM com Aprendizado por Reforço Baseado em Gradiente para Negociação Financeira

FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

February 17, 2025
Autores: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) ajustados em dados financeiros multimodais demonstraram capacidades impressionantes de raciocínio em diversas tarefas financeiras. No entanto, eles frequentemente enfrentam dificuldades em cenários interativos e orientados a objetivos em mercados financeiros, como negociações, onde abordagens agentivas complexas são necessárias para melhorar a tomada de decisões. Para abordar esse desafio, propomos o FLAG-Trader, uma arquitetura unificada que integra processamento linguístico (via LLMs) com otimização de políticas de aprendizado por reforço (RL) baseada em gradientes, na qual um LLM parcialmente ajustado atua como a rede de políticas, aproveitando conhecimento pré-treinado enquanto se adapta ao domínio financeiro por meio de ajuste fino eficiente em parâmetros. Através da otimização de gradiente de política impulsionada por recompensas de negociação, nosso framework não apenas melhora o desempenho dos LLMs em negociações, mas também aprimora os resultados em outras tarefas do domínio financeiro. Apresentamos evidências empíricas extensas para validar esses aprimoramentos.
English
Large language models (LLMs) fine-tuned on multimodal financial data have demonstrated impressive reasoning capabilities in various financial tasks. However, they often struggle with multi-step, goal-oriented scenarios in interactive financial markets, such as trading, where complex agentic approaches are required to improve decision-making. To address this, we propose FLAG-Trader, a unified architecture integrating linguistic processing (via LLMs) with gradient-driven reinforcement learning (RL) policy optimization, in which a partially fine-tuned LLM acts as the policy network, leveraging pre-trained knowledge while adapting to the financial domain through parameter-efficient fine-tuning. Through policy gradient optimization driven by trading rewards, our framework not only enhances LLM performance in trading but also improves results on other financial-domain tasks. We present extensive empirical evidence to validate these enhancements.

Summary

AI-Generated Summary

PDF362February 19, 2025