FLAG-Trader: 勾配ベース強化学習を統合したLLMエージェントによる金融取引
FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading
February 17, 2025
著者: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI
要旨
マルチモーダルな金融データでファインチューニングされた大規模言語モデル(LLM)は、様々な金融タスクにおいて印象的な推論能力を発揮してきました。しかし、取引のようなインタラクティブな金融市場における多段階で目標指向のシナリオでは、意思決定を改善するために複雑なエージェント的アプローチが必要となるため、しばしば苦戦しています。この課題に対処するため、我々はFLAG-Traderを提案します。これは、言語処理(LLMによる)と勾配駆動型強化学習(RL)ポリシー最適化を統合したアーキテクチャであり、部分的にファインチューニングされたLLMがポリシーネットワークとして機能し、事前学習された知識を活用しながらパラメータ効率的なファインチューニングを通じて金融領域に適応します。取引報酬によって駆動されるポリシー勾配最適化を通じて、我々のフレームワークは取引におけるLLMの性能を向上させるだけでなく、他の金融領域タスクでの結果も改善します。これらの改善を検証するための広範な実証的証拠を提示します。
English
Large language models (LLMs) fine-tuned on multimodal financial data have
demonstrated impressive reasoning capabilities in various financial tasks.
However, they often struggle with multi-step, goal-oriented scenarios in
interactive financial markets, such as trading, where complex agentic
approaches are required to improve decision-making. To address this, we propose
FLAG-Trader, a unified architecture integrating linguistic processing
(via LLMs) with gradient-driven reinforcement learning (RL) policy
optimization, in which a partially fine-tuned LLM acts as the policy network,
leveraging pre-trained knowledge while adapting to the financial domain through
parameter-efficient fine-tuning. Through policy gradient optimization driven by
trading rewards, our framework not only enhances LLM performance in trading but
also improves results on other financial-domain tasks. We present extensive
empirical evidence to validate these enhancements.Summary
AI-Generated Summary