ChatPaper.aiChatPaper

FLAG-Trader: Fusion LLM-Agent mit gradientenbasierter Verstärkungslernmethode für den Finanzhandel

FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

February 17, 2025
Autoren: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs), die auf multimodalen Finanzdaten feinabgestimmt wurden, haben beeindruckende Fähigkeiten in der logischen Schlussfolgerung bei verschiedenen Finanzaufgaben gezeigt. Allerdings haben sie oft Schwierigkeiten mit mehrstufigen, zielorientierten Szenarien in interaktiven Finanzmärkten, wie beispielsweise dem Handel, bei dem komplexe agentenbasierte Ansätze erforderlich sind, um die Entscheidungsfindung zu verbessern. Um dies zu adressieren, schlagen wir FLAG-Trader vor, eine einheitliche Architektur, die linguistische Verarbeitung (über LLMs) mit gradientengetriebener Reinforcement-Learning (RL)-Policy-Optimierung integriert. Dabei fungiert ein teilweise feinabgestimmtes LLM als Policy-Netzwerk, das vortrainiertes Wissen nutzt und sich gleichzeitig durch parameter-effiziente Feinabstimmung an den Finanzbereich anpasst. Durch die Policy-Gradienten-Optimierung, die durch Handelserträge angetrieben wird, verbessert unser Framework nicht nur die Leistung des LLMs im Handel, sondern steigert auch die Ergebnisse bei anderen Aufgaben im Finanzbereich. Wir präsentieren umfangreiche empirische Belege, um diese Verbesserungen zu validieren.
English
Large language models (LLMs) fine-tuned on multimodal financial data have demonstrated impressive reasoning capabilities in various financial tasks. However, they often struggle with multi-step, goal-oriented scenarios in interactive financial markets, such as trading, where complex agentic approaches are required to improve decision-making. To address this, we propose FLAG-Trader, a unified architecture integrating linguistic processing (via LLMs) with gradient-driven reinforcement learning (RL) policy optimization, in which a partially fine-tuned LLM acts as the policy network, leveraging pre-trained knowledge while adapting to the financial domain through parameter-efficient fine-tuning. Through policy gradient optimization driven by trading rewards, our framework not only enhances LLM performance in trading but also improves results on other financial-domain tasks. We present extensive empirical evidence to validate these enhancements.

Summary

AI-Generated Summary

PDF362February 19, 2025