ChatPaper.aiChatPaper

FLAG-Trader: Интеграция LLM-агента с градиентным обучением с подкреплением для финансового трейдинга

FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

February 17, 2025
Авторы: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI

Аннотация

Крупные языковые модели (LLM), дообученные на мультимодальных финансовых данных, продемонстрировали впечатляющие способности к рассуждению в различных финансовых задачах. Однако они часто испытывают трудности в многошаговых, целеориентированных сценариях в интерактивных финансовых рынках, таких как торговля, где для улучшения принятия решений требуются сложные агентные подходы. Для решения этой проблемы мы предлагаем FLAG-Trader — унифицированную архитектуру, интегрирующую лингвистическую обработку (с помощью LLM) с оптимизацией стратегии на основе градиентного обучения с подкреплением (RL), в которой частично дообученная LLM выступает в роли сети стратегии, используя предварительно обученные знания и адаптируясь к финансовой области через параметрически эффективное дообучение. Благодаря оптимизации градиента политики, управляемой торговыми наградами, наша структура не только улучшает производительность LLM в торговле, но и повышает результаты в других задачах финансовой области. Мы представляем обширные эмпирические данные, подтверждающие эти улучшения.
English
Large language models (LLMs) fine-tuned on multimodal financial data have demonstrated impressive reasoning capabilities in various financial tasks. However, they often struggle with multi-step, goal-oriented scenarios in interactive financial markets, such as trading, where complex agentic approaches are required to improve decision-making. To address this, we propose FLAG-Trader, a unified architecture integrating linguistic processing (via LLMs) with gradient-driven reinforcement learning (RL) policy optimization, in which a partially fine-tuned LLM acts as the policy network, leveraging pre-trained knowledge while adapting to the financial domain through parameter-efficient fine-tuning. Through policy gradient optimization driven by trading rewards, our framework not only enhances LLM performance in trading but also improves results on other financial-domain tasks. We present extensive empirical evidence to validate these enhancements.

Summary

AI-Generated Summary

PDF362February 19, 2025