Modelli linguistici di grandi dimensioni potenziati da recupero per la previsione delle serie temporali finanziarie
Retrieval-augmented Large Language Models for Financial Time Series Forecasting
February 9, 2025
Autori: Mengxi Xiao, Zihao Jiang, Lingfei Qian, Zhengyu Chen, Yueru He, Yijing Xu, Yuecheng Jiang, Dong Li, Ruey-Ling Weng, Min Peng, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI
Abstract
La previsione del movimento delle azioni, un compito fondamentale nella previsione delle serie temporali finanziarie, richiede l'identificazione e il recupero di fattori influenti critici da grandi quantità di dati di serie temporali. Tuttavia, i metodi esistenti basati su testo o similarità numerica falliscono nel gestire l'analisi finanziaria complessa. Per affrontare questo problema, proponiamo il primo framework di generazione potenziato da recupero (RAG) per la previsione delle serie temporali finanziarie, che presenta tre innovazioni chiave: un modello di linguaggio di grandi dimensioni con 1B di parametri sintonizzato (StockLLM) come base, un nuovo metodo di selezione dei candidati che sfrutta il feedback del LLM e un obiettivo di addestramento che massimizza la similarità tra le query e le sequenze storicamente significative. Ciò consente al nostro recupero, FinSeer, di individuare modelli significativi riducendo al minimo il rumore nei dati finanziari complessi. Costruiamo inoltre nuovi set di dati che integrano indicatori finanziari e prezzi storici delle azioni per addestrare FinSeer e garantire una valutazione robusta. I risultati sperimentali dimostrano che il nostro framework RAG supera il semplice StockLLM e il recupero casuale, evidenziandone l'efficacia, mentre FinSeer supera i metodi di recupero esistenti, raggiungendo un'accuratezza superiore del 8\% su BIGDATA22 e recuperando sequenze più impattanti. Questo lavoro sottolinea l'importanza dei modelli di recupero personalizzati nella previsione finanziaria e fornisce un framework innovativo per future ricerche.
English
Stock movement prediction, a fundamental task in financial time-series
forecasting, requires identifying and retrieving critical influencing factors
from vast amounts of time-series data. However, existing text-trained or
numeric similarity-based retrieval methods fall short in handling complex
financial analysis. To address this, we propose the first retrieval-augmented
generation (RAG) framework for financial time-series forecasting, featuring
three key innovations: a fine-tuned 1B parameter large language model
(StockLLM) as the backbone, a novel candidate selection method leveraging LLM
feedback, and a training objective that maximizes similarity between queries
and historically significant sequences. This enables our retriever, FinSeer, to
uncover meaningful patterns while minimizing noise in complex financial data.
We also construct new datasets integrating financial indicators and historical
stock prices to train FinSeer and ensure robust evaluation. Experimental
results demonstrate that our RAG framework outperforms bare StockLLM and random
retrieval, highlighting its effectiveness, while FinSeer surpasses existing
retrieval methods, achieving an 8\% higher accuracy on BIGDATA22 and retrieving
more impactful sequences. This work underscores the importance of tailored
retrieval models in financial forecasting and provides a novel framework for
future research.Summary
AI-Generated Summary