FLAG-Trader: Fusione LLM-Agente con Apprendimento per Rinforzo Basato su Gradiente per il Trading Finanziario
FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading
February 17, 2025
Autori: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI
Abstract
I grandi modelli linguistici (LLM) ottimizzati su dati finanziari multimodali hanno dimostrato capacità di ragionamento impressionanti in vari compiti finanziari. Tuttavia, spesso incontrano difficoltà in scenari interattivi e orientati agli obiettivi nei mercati finanziari, come il trading, dove sono necessari approcci agentici complessi per migliorare il processo decisionale. Per affrontare questa sfida, proponiamo FLAG-Trader, un'architettura unificata che integra l'elaborazione linguistica (tramite LLM) con l'ottimizzazione delle politiche di apprendimento per rinforzo (RL) guidata da gradienti, in cui un LLM parzialmente ottimizzato funge da rete di politica, sfruttando conoscenze pre-addestrate mentre si adatta al dominio finanziario attraverso un'ottimizzazione efficiente dei parametri. Attraverso l'ottimizzazione dei gradienti delle politiche guidata dai premi del trading, il nostro framework non solo migliora le prestazioni degli LLM nel trading, ma ottimizza anche i risultati in altri compiti del dominio finanziario. Presentiamo ampie evidenze empiriche per validare questi miglioramenti.
English
Large language models (LLMs) fine-tuned on multimodal financial data have
demonstrated impressive reasoning capabilities in various financial tasks.
However, they often struggle with multi-step, goal-oriented scenarios in
interactive financial markets, such as trading, where complex agentic
approaches are required to improve decision-making. To address this, we propose
FLAG-Trader, a unified architecture integrating linguistic processing
(via LLMs) with gradient-driven reinforcement learning (RL) policy
optimization, in which a partially fine-tuned LLM acts as the policy network,
leveraging pre-trained knowledge while adapting to the financial domain through
parameter-efficient fine-tuning. Through policy gradient optimization driven by
trading rewards, our framework not only enhances LLM performance in trading but
also improves results on other financial-domain tasks. We present extensive
empirical evidence to validate these enhancements.Summary
AI-Generated Summary