Modèles de langage de grande taille augmentés par récupération pour la prévision de séries temporelles financières
Retrieval-augmented Large Language Models for Financial Time Series Forecasting
February 9, 2025
Auteurs: Mengxi Xiao, Zihao Jiang, Lingfei Qian, Zhengyu Chen, Yueru He, Yijing Xu, Yuecheng Jiang, Dong Li, Ruey-Ling Weng, Min Peng, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI
Résumé
La prédiction des mouvements de stock, une tâche fondamentale dans la prévision des séries temporelles financières, nécessite l'identification et la récupération des facteurs d'influence critiques à partir de vastes quantités de données de séries temporelles. Cependant, les méthodes de recherche existantes basées sur des similarités textuelles ou numériques sont insuffisantes pour traiter l'analyse financière complexe. Pour remédier à cela, nous proposons le premier cadre de génération augmentée par recherche (RAG) pour la prévision des séries temporelles financières, présentant trois innovations clés : un modèle de langage large finement réglé à 1 milliard de paramètres (StockLLM) comme base, une nouvelle méthode de sélection de candidats exploitant les retours du LLM, et un objectif d'entraînement qui maximise la similarité entre les requêtes et les séquences historiquement significatives. Cela permet à notre système de recherche, FinSeer, de découvrir des motifs significatifs tout en minimisant le bruit dans des données financières complexes. Nous construisons également de nouveaux ensembles de données intégrant des indicateurs financiers et des prix d'actions historiques pour entraîner FinSeer et garantir une évaluation robuste. Les résultats expérimentaux démontrent que notre cadre RAG surpasse le simple StockLLM et la recherche aléatoire, mettant en avant son efficacité, tandis que FinSeer dépasse les méthodes de recherche existantes, atteignant une précision 8\% plus élevée sur BIGDATA22 et récupérant des séquences plus impactantes. Ce travail souligne l'importance des modèles de recherche adaptés dans la prévision financière et fournit un cadre novateur pour les futures recherches.
English
Stock movement prediction, a fundamental task in financial time-series
forecasting, requires identifying and retrieving critical influencing factors
from vast amounts of time-series data. However, existing text-trained or
numeric similarity-based retrieval methods fall short in handling complex
financial analysis. To address this, we propose the first retrieval-augmented
generation (RAG) framework for financial time-series forecasting, featuring
three key innovations: a fine-tuned 1B parameter large language model
(StockLLM) as the backbone, a novel candidate selection method leveraging LLM
feedback, and a training objective that maximizes similarity between queries
and historically significant sequences. This enables our retriever, FinSeer, to
uncover meaningful patterns while minimizing noise in complex financial data.
We also construct new datasets integrating financial indicators and historical
stock prices to train FinSeer and ensure robust evaluation. Experimental
results demonstrate that our RAG framework outperforms bare StockLLM and random
retrieval, highlighting its effectiveness, while FinSeer surpasses existing
retrieval methods, achieving an 8\% higher accuracy on BIGDATA22 and retrieving
more impactful sequences. This work underscores the importance of tailored
retrieval models in financial forecasting and provides a novel framework for
future research.Summary
AI-Generated Summary