ChatPaper.aiChatPaper

FLAG-Trader: Agente LLM de Fusión con Aprendizaje por Refuerzo Basado en Gradientes para Trading Financiero

FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

February 17, 2025
Autores: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI

Resumen

Los grandes modelos de lenguaje (LLMs) ajustados sobre datos financieros multimodales han demostrado capacidades de razonamiento impresionantes en diversas tareas financieras. Sin embargo, suelen tener dificultades en escenarios interactivos y orientados a objetivos en mercados financieros, como el trading, donde se requieren enfoques agentivos complejos para mejorar la toma de decisiones. Para abordar esto, proponemos FLAG-Trader, una arquitectura unificada que integra el procesamiento lingüístico (mediante LLMs) con la optimización de políticas de aprendizaje por refuerzo (RL) basada en gradientes, en la que un LLM parcialmente ajustado actúa como la red de políticas, aprovechando el conocimiento preentrenado mientras se adapta al dominio financiero mediante ajustes eficientes en parámetros. A través de la optimización de gradientes de políticas impulsada por recompensas de trading, nuestro marco no solo mejora el rendimiento de los LLMs en trading, sino que también optimiza los resultados en otras tareas del ámbito financiero. Presentamos evidencia empírica extensa para validar estas mejoras.
English
Large language models (LLMs) fine-tuned on multimodal financial data have demonstrated impressive reasoning capabilities in various financial tasks. However, they often struggle with multi-step, goal-oriented scenarios in interactive financial markets, such as trading, where complex agentic approaches are required to improve decision-making. To address this, we propose FLAG-Trader, a unified architecture integrating linguistic processing (via LLMs) with gradient-driven reinforcement learning (RL) policy optimization, in which a partially fine-tuned LLM acts as the policy network, leveraging pre-trained knowledge while adapting to the financial domain through parameter-efficient fine-tuning. Through policy gradient optimization driven by trading rewards, our framework not only enhances LLM performance in trading but also improves results on other financial-domain tasks. We present extensive empirical evidence to validate these enhancements.

Summary

AI-Generated Summary

PDF362February 19, 2025