Modèles de langage de grande taille augmentés par récupération pour la prévision de séries temporelles financières

Résumé

La prédiction des mouvements de stock, une tâche fondamentale dans la prévision des séries temporelles financières, nécessite l'identification et la récupération des facteurs d'influence critiques à partir de vastes quantités de données de séries temporelles. Cependant, les méthodes de recherche existantes basées sur des similarités textuelles ou numériques sont insuffisantes pour traiter l'analyse financière complexe. Pour remédier à cela, nous proposons le premier cadre de génération augmentée par recherche (RAG) pour la prévision des séries temporelles financières, présentant trois innovations clés : un modèle de langage large finement réglé à 1 milliard de paramètres (StockLLM) comme base, une nouvelle méthode de sélection de candidats exploitant les retours du LLM, et un objectif d'entraînement qui maximise la similarité entre les requêtes et les séquences historiquement significatives. Cela permet à notre système de recherche, FinSeer, de découvrir des motifs significatifs tout en minimisant le bruit dans des données financières complexes. Nous construisons également de nouveaux ensembles de données intégrant des indicateurs financiers et des prix d'actions historiques pour entraîner FinSeer et garantir une évaluation robuste. Les résultats expérimentaux démontrent que notre cadre RAG surpasse le simple StockLLM et la recherche aléatoire, mettant en avant son efficacité, tandis que FinSeer dépasse les méthodes de recherche existantes, atteignant une précision 8\% plus élevée sur BIGDATA22 et récupérant des séquences plus impactantes. Ce travail souligne l'importance des modèles de recherche adaptés dans la prévision financière et fournit un cadre novateur pour les futures recherches.

English

Stock movement prediction, a fundamental task in financial time-series forecasting, requires identifying and retrieving critical influencing factors from vast amounts of time-series data. However, existing text-trained or numeric similarity-based retrieval methods fall short in handling complex financial analysis. To address this, we propose the first retrieval-augmented generation (RAG) framework for financial time-series forecasting, featuring three key innovations: a fine-tuned 1B parameter large language model (StockLLM) as the backbone, a novel candidate selection method leveraging LLM feedback, and a training objective that maximizes similarity between queries and historically significant sequences. This enables our retriever, FinSeer, to uncover meaningful patterns while minimizing noise in complex financial data. We also construct new datasets integrating financial indicators and historical stock prices to train FinSeer and ensure robust evaluation. Experimental results demonstrate that our RAG framework outperforms bare StockLLM and random retrieval, highlighting its effectiveness, while FinSeer surpasses existing retrieval methods, achieving an 8\% higher accuracy on BIGDATA22 and retrieving more impactful sequences. This work underscores the importance of tailored retrieval models in financial forecasting and provides a novel framework for future research.