ChatPaper.aiChatPaper

Modelos de Lenguaje de Gran Escala con Recuperación Mejorada para la Predicción de Series Temporales Financieras

Retrieval-augmented Large Language Models for Financial Time Series Forecasting

February 9, 2025
Autores: Mengxi Xiao, Zihao Jiang, Lingfei Qian, Zhengyu Chen, Yueru He, Yijing Xu, Yuecheng Jiang, Dong Li, Ruey-Ling Weng, Min Peng, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI

Resumen

La predicción del movimiento de acciones, una tarea fundamental en el pronóstico de series temporales financieras, requiere identificar y recuperar factores influyentes críticos de grandes cantidades de datos de series temporales. Sin embargo, los métodos de recuperación existentes basados en similitud de texto o numérica no son suficientes para manejar el análisis financiero complejo. Para abordar esto, proponemos el primer marco de generación aumentada por recuperación (RAG) para el pronóstico de series temporales financieras, que presenta tres innovaciones clave: un modelo de lenguaje grande (StockLLM) afinado con 1B parámetros como base, un método novedoso de selección de candidatos que aprovecha la retroalimentación de LLM, y un objetivo de entrenamiento que maximiza la similitud entre consultas y secuencias históricamente significativas. Esto permite que nuestro recuperador, FinSeer, descubra patrones significativos mientras minimiza el ruido en datos financieros complejos. También construimos nuevos conjuntos de datos que integran indicadores financieros y precios históricos de acciones para entrenar a FinSeer y garantizar una evaluación robusta. Los resultados experimentales demuestran que nuestro marco RAG supera al StockLLM básico y a la recuperación aleatoria, destacando su efectividad, mientras que FinSeer supera a los métodos de recuperación existentes, logrando una precisión un 8\% mayor en BIGDATA22 y recuperando secuencias más impactantes. Este trabajo subraya la importancia de modelos de recuperación adaptados en el pronóstico financiero y proporciona un marco novedoso para investigaciones futuras.
English
Stock movement prediction, a fundamental task in financial time-series forecasting, requires identifying and retrieving critical influencing factors from vast amounts of time-series data. However, existing text-trained or numeric similarity-based retrieval methods fall short in handling complex financial analysis. To address this, we propose the first retrieval-augmented generation (RAG) framework for financial time-series forecasting, featuring three key innovations: a fine-tuned 1B parameter large language model (StockLLM) as the backbone, a novel candidate selection method leveraging LLM feedback, and a training objective that maximizes similarity between queries and historically significant sequences. This enables our retriever, FinSeer, to uncover meaningful patterns while minimizing noise in complex financial data. We also construct new datasets integrating financial indicators and historical stock prices to train FinSeer and ensure robust evaluation. Experimental results demonstrate that our RAG framework outperforms bare StockLLM and random retrieval, highlighting its effectiveness, while FinSeer surpasses existing retrieval methods, achieving an 8\% higher accuracy on BIGDATA22 and retrieving more impactful sequences. This work underscores the importance of tailored retrieval models in financial forecasting and provides a novel framework for future research.

Summary

AI-Generated Summary

PDF413February 12, 2025