Ophalingsversterkte Grote Taalmodellen voor het Voorspellen van Financiële Tijdreeksen.
Retrieval-augmented Large Language Models for Financial Time Series Forecasting
February 9, 2025
Auteurs: Mengxi Xiao, Zihao Jiang, Lingfei Qian, Zhengyu Chen, Yueru He, Yijing Xu, Yuecheng Jiang, Dong Li, Ruey-Ling Weng, Min Peng, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI
Samenvatting
Het voorspellen van de beweging van aandelen, een fundamentele taak in financiële tijdreeksvoorspelling, vereist het identificeren en ophalen van kritieke beïnvloedende factoren uit grote hoeveelheden tijdreeksgegevens. Bestaande methoden voor ophalen op basis van teksttraining of numerieke gelijkenis schieten echter tekort bij het omgaan met complexe financiële analyses. Om dit aan te pakken, stellen we het eerste ophaal-versterkte generatie (RAG) framework voor voor financiële tijdreeksvoorspelling, met drie belangrijke innovaties: een fijn afgestemd 1B-parameter groot taalmodel (StockLLM) als ruggengraat, een nieuw kandidaatselectiemethode die gebruikmaakt van LLM-feedback, en een trainingsdoel dat de gelijkenis tussen zoekopdrachten en historisch significante sequenties maximaliseert. Dit stelt onze ophaalder, FinSeer, in staat om betekenisvolle patronen bloot te leggen terwijl ruis in complexe financiële gegevens wordt geminimaliseerd. We construeren ook nieuwe datasets waarin financiële indicatoren en historische aandelenkoersen zijn geïntegreerd om FinSeer te trainen en zorgen voor een robuuste evaluatie. Experimentele resultaten tonen aan dat ons RAG-framework beter presteert dan alleen StockLLM en willekeurig ophalen, waarbij de effectiviteit ervan wordt benadrukt, terwijl FinSeer bestaande ophaalmethoden overtreft, met een 8% hogere nauwkeurigheid op BIGDATA22 en het ophalen van meer impactvolle sequenties. Dit werk benadrukt het belang van op maat gemaakte ophaalmodellen in financiële voorspellingen en biedt een nieuw framework voor toekomstig onderzoek.
English
Stock movement prediction, a fundamental task in financial time-series
forecasting, requires identifying and retrieving critical influencing factors
from vast amounts of time-series data. However, existing text-trained or
numeric similarity-based retrieval methods fall short in handling complex
financial analysis. To address this, we propose the first retrieval-augmented
generation (RAG) framework for financial time-series forecasting, featuring
three key innovations: a fine-tuned 1B parameter large language model
(StockLLM) as the backbone, a novel candidate selection method leveraging LLM
feedback, and a training objective that maximizes similarity between queries
and historically significant sequences. This enables our retriever, FinSeer, to
uncover meaningful patterns while minimizing noise in complex financial data.
We also construct new datasets integrating financial indicators and historical
stock prices to train FinSeer and ensure robust evaluation. Experimental
results demonstrate that our RAG framework outperforms bare StockLLM and random
retrieval, highlighting its effectiveness, while FinSeer surpasses existing
retrieval methods, achieving an 8\% higher accuracy on BIGDATA22 and retrieving
more impactful sequences. This work underscores the importance of tailored
retrieval models in financial forecasting and provides a novel framework for
future research.