ChatPaper.aiChatPaper

FLAG-Trader: Fusione LLM-Agente con Apprendimento per Rinforzo Basato su Gradiente per il Trading Finanziario

FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

February 17, 2025
Autori: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI

Abstract

I grandi modelli linguistici (LLM) ottimizzati su dati finanziari multimodali hanno dimostrato capacità di ragionamento impressionanti in vari compiti finanziari. Tuttavia, spesso incontrano difficoltà in scenari interattivi e orientati agli obiettivi nei mercati finanziari, come il trading, dove sono necessari approcci agentici complessi per migliorare il processo decisionale. Per affrontare questa sfida, proponiamo FLAG-Trader, un'architettura unificata che integra l'elaborazione linguistica (tramite LLM) con l'ottimizzazione delle politiche di apprendimento per rinforzo (RL) guidata da gradienti, in cui un LLM parzialmente ottimizzato funge da rete di politica, sfruttando conoscenze pre-addestrate mentre si adatta al dominio finanziario attraverso un'ottimizzazione efficiente dei parametri. Attraverso l'ottimizzazione dei gradienti delle politiche guidata dai premi del trading, il nostro framework non solo migliora le prestazioni degli LLM nel trading, ma ottimizza anche i risultati in altri compiti del dominio finanziario. Presentiamo ampie evidenze empiriche per validare questi miglioramenti.
English
Large language models (LLMs) fine-tuned on multimodal financial data have demonstrated impressive reasoning capabilities in various financial tasks. However, they often struggle with multi-step, goal-oriented scenarios in interactive financial markets, such as trading, where complex agentic approaches are required to improve decision-making. To address this, we propose FLAG-Trader, a unified architecture integrating linguistic processing (via LLMs) with gradient-driven reinforcement learning (RL) policy optimization, in which a partially fine-tuned LLM acts as the policy network, leveraging pre-trained knowledge while adapting to the financial domain through parameter-efficient fine-tuning. Through policy gradient optimization driven by trading rewards, our framework not only enhances LLM performance in trading but also improves results on other financial-domain tasks. We present extensive empirical evidence to validate these enhancements.

Summary

AI-Generated Summary

PDF362February 19, 2025