ChatPaper.aiChatPaper

Modelos de Linguagem de Grande Escala com Recuperação para Previsão de Séries Temporais Financeiras

Retrieval-augmented Large Language Models for Financial Time Series Forecasting

February 9, 2025
Autores: Mengxi Xiao, Zihao Jiang, Lingfei Qian, Zhengyu Chen, Yueru He, Yijing Xu, Yuecheng Jiang, Dong Li, Ruey-Ling Weng, Min Peng, Jimin Huang, Sophia Ananiadou, Qianqian Xie
cs.AI

Resumo

A previsão do movimento de ações, uma tarefa fundamental na previsão de séries temporais financeiras, requer a identificação e recuperação de fatores influentes críticos a partir de vastas quantidades de dados de séries temporais. No entanto, os métodos de recuperação existentes baseados em texto ou similaridade numérica não conseguem lidar adequadamente com a análise financeira complexa. Para lidar com isso, propomos o primeiro framework de geração com recuperação (RAG) para previsão de séries temporais financeiras, apresentando três inovações-chave: um modelo de linguagem grande com 1B de parâmetros ajustado finamente (StockLLM) como base, um método de seleção de candidatos inovador que aproveita o feedback do LLM, e um objetivo de treinamento que maximiza a similaridade entre consultas e sequências historicamente significativas. Isso permite que nosso recuperador, FinSeer, descubra padrões significativos enquanto minimiza o ruído em dados financeiros complexos. Também construímos novos conjuntos de dados integrando indicadores financeiros e preços históricos de ações para treinar o FinSeer e garantir uma avaliação robusta. Resultados experimentais demonstram que nosso framework RAG supera o StockLLM básico e a recuperação aleatória, destacando sua eficácia, enquanto o FinSeer supera os métodos de recuperação existentes, alcançando uma precisão 8% maior no BIGDATA22 e recuperando sequências mais impactantes. Este trabalho destaca a importância de modelos de recuperação personalizados na previsão financeira e fornece um framework inovador para pesquisas futuras.
English
Stock movement prediction, a fundamental task in financial time-series forecasting, requires identifying and retrieving critical influencing factors from vast amounts of time-series data. However, existing text-trained or numeric similarity-based retrieval methods fall short in handling complex financial analysis. To address this, we propose the first retrieval-augmented generation (RAG) framework for financial time-series forecasting, featuring three key innovations: a fine-tuned 1B parameter large language model (StockLLM) as the backbone, a novel candidate selection method leveraging LLM feedback, and a training objective that maximizes similarity between queries and historically significant sequences. This enables our retriever, FinSeer, to uncover meaningful patterns while minimizing noise in complex financial data. We also construct new datasets integrating financial indicators and historical stock prices to train FinSeer and ensure robust evaluation. Experimental results demonstrate that our RAG framework outperforms bare StockLLM and random retrieval, highlighting its effectiveness, while FinSeer surpasses existing retrieval methods, achieving an 8\% higher accuracy on BIGDATA22 and retrieving more impactful sequences. This work underscores the importance of tailored retrieval models in financial forecasting and provides a novel framework for future research.

Summary

AI-Generated Summary

PDF413February 12, 2025