Modelli Linguistici di Grande Dimensione Centrati sui Dati Finanziari

Abstract

I grandi modelli linguistici (LLM) mostrano promettenti risultati nei compiti di elaborazione del linguaggio naturale, ma incontrano difficoltà quando applicati direttamente a domini complessi come la finanza. Gli LLM faticano a ragionare e integrare tutte le informazioni rilevanti. Proponiamo un approccio centrato sui dati per consentire agli LLM di gestire meglio i compiti finanziari. La nostra intuizione chiave è che, anziché sovraccaricare l'LLM con tutto in una volta, è più efficace pre-elaborare e pre-comprendere i dati. Creiamo un LLM finanziario (FLLM) utilizzando il fine-tuning basato su prompt multitask per ottenere la pre-elaborazione e la pre-comprensione dei dati. Tuttavia, i dati etichettati sono scarsi per ogni compito. Per superare i costi dell'annotazione manuale, impieghiamo il ragionamento di aumento abduttivo (AAR) per generare automaticamente dati di addestramento modificando le etichette pseudo derivate dagli output dello stesso FLLM. Gli esperimenti dimostrano che il nostro FLLM centrato sui dati con AAR supera significativamente i LLM finanziari di base progettati per il testo grezzo, raggiungendo risultati all'avanguardia nei compiti di analisi e interpretazione finanziaria. Rendiamo inoltre disponibile un nuovo benchmark open source per l'analisi e l'interpretazione finanziaria. La nostra metodologia offre una strada promettente per sbloccare il potenziale degli LLM nei domini complessi del mondo reale.

English

Large language models (LLMs) show promise for natural language tasks but struggle when applied directly to complex domains like finance. LLMs have difficulty reasoning about and integrating all relevant information. We propose a data-centric approach to enable LLMs to better handle financial tasks. Our key insight is that rather than overloading the LLM with everything at once, it is more effective to preprocess and pre-understand the data. We create a financial LLM (FLLM) using multitask prompt-based finetuning to achieve data pre-processing and pre-understanding. However, labeled data is scarce for each task. To overcome manual annotation costs, we employ abductive augmentation reasoning (AAR) to automatically generate training data by modifying the pseudo labels from FLLM's own outputs. Experiments show our data-centric FLLM with AAR substantially outperforms baseline financial LLMs designed for raw text, achieving state-of-the-art on financial analysis and interpretation tasks. We also open source a new benchmark for financial analysis and interpretation. Our methodology provides a promising path to unlock LLMs' potential for complex real-world domains.

Modelli Linguistici di Grande Dimensione Centrati sui Dati Finanziari

Data-Centric Financial Large Language Models

Abstract

Support