ChatPaper.aiChatPaper

FLAG-Trader: Fusie van LLM-Agent met Gradiëntgebaseerd Reinforcement Learning voor Financiële Handel

FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

February 17, 2025
Auteurs: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI

Samenvatting

Grote taalmodellen (LLMs) die zijn afgestemd op multimodale financiële gegevens hebben indrukwekkende redeneervaardigheden getoond bij diverse financiële taken. Ze hebben echter vaak moeite met meerstaps, doelgerichte scenario's in interactieve financiële markten, zoals handel, waar complexe agent-gebaseerde benaderingen nodig zijn om de besluitvorming te verbeteren. Om dit aan te pakken, stellen we FLAG-Trader voor, een uniforme architectuur die linguïstische verwerking (via LLMs) integreert met gradiënt-gestuurde reinforcement learning (RL) beleidsoptimalisatie, waarbij een gedeeltelijk afgestemd LLM fungeert als het beleidsnetwerk, gebruikmakend van vooraf getrainde kennis terwijl het zich aanpast aan het financiële domein via parameter-efficiënte afstemming. Door beleidsgradiëntoptimalisatie aangedreven door handelsbeloningen, verbetert ons framework niet alleen de prestaties van LLMs in handel, maar ook de resultaten bij andere taken in het financiële domein. We presenteren uitgebreid empirisch bewijs om deze verbeteringen te valideren.
English
Large language models (LLMs) fine-tuned on multimodal financial data have demonstrated impressive reasoning capabilities in various financial tasks. However, they often struggle with multi-step, goal-oriented scenarios in interactive financial markets, such as trading, where complex agentic approaches are required to improve decision-making. To address this, we propose FLAG-Trader, a unified architecture integrating linguistic processing (via LLMs) with gradient-driven reinforcement learning (RL) policy optimization, in which a partially fine-tuned LLM acts as the policy network, leveraging pre-trained knowledge while adapting to the financial domain through parameter-efficient fine-tuning. Through policy gradient optimization driven by trading rewards, our framework not only enhances LLM performance in trading but also improves results on other financial-domain tasks. We present extensive empirical evidence to validate these enhancements.

Summary

AI-Generated Summary

PDF362February 19, 2025