ChatPaper.aiChatPaper

FLAG-Trader : Fusion d'Agent LLM avec Apprentissage par Renforcement basé sur le Gradient pour le Trading Financier

FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

February 17, 2025
Auteurs: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI

Résumé

Les grands modèles de langage (LLM) affinés sur des données financières multimodales ont démontré des capacités de raisonnement impressionnantes dans diverses tâches financières. Cependant, ils rencontrent souvent des difficultés dans des scénarios interactifs et orientés objectifs sur les marchés financiers, tels que le trading, où des approches agentiques complexes sont nécessaires pour améliorer la prise de décision. Pour remédier à cela, nous proposons FLAG-Trader, une architecture unifiée intégrant le traitement linguistique (via les LLM) avec l'optimisation de politiques d'apprentissage par renforcement (RL) basée sur les gradients, dans laquelle un LLM partiellement affiné agit comme le réseau de politique, exploitant les connaissances pré-entraînées tout en s'adaptant au domaine financier grâce à un affinage paramétrique efficace. Grâce à l'optimisation par gradient de politique guidée par les récompenses de trading, notre cadre améliore non seulement les performances des LLM en trading, mais aussi les résultats sur d'autres tâches du domaine financier. Nous présentons des preuves empiriques approfondies pour valider ces améliorations.
English
Large language models (LLMs) fine-tuned on multimodal financial data have demonstrated impressive reasoning capabilities in various financial tasks. However, they often struggle with multi-step, goal-oriented scenarios in interactive financial markets, such as trading, where complex agentic approaches are required to improve decision-making. To address this, we propose FLAG-Trader, a unified architecture integrating linguistic processing (via LLMs) with gradient-driven reinforcement learning (RL) policy optimization, in which a partially fine-tuned LLM acts as the policy network, leveraging pre-trained knowledge while adapting to the financial domain through parameter-efficient fine-tuning. Through policy gradient optimization driven by trading rewards, our framework not only enhances LLM performance in trading but also improves results on other financial-domain tasks. We present extensive empirical evidence to validate these enhancements.

Summary

AI-Generated Summary

PDF362February 19, 2025