Sulla Trasferibilità del Potenziamento del Ragionamento LLMs in Finanza
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance
February 12, 2025
Autori: Lingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno dimostrato forti capacità di ragionamento generale, tuttavia la loro efficacia nel ragionamento finanziario rimane poco esplorata. In questo studio, valutiamo in modo esaustivo 16 potenti LLM di ragionamento generale su tre compiti finanziari complessi che coinvolgono testi finanziari, dati tabulari ed equazioni, valutando il ragionamento numerico, l'interpretazione tabellare, la comprensione dei termini finanziari, l'elaborazione di contesti lunghi e la risoluzione di problemi basati su equazioni. I nostri risultati mostrano che sebbene migliori set di dati e il preaddestramento migliorino il ragionamento finanziario, miglioramenti generali come il fine-tuning di CoT non portano sempre a guadagni consistenti. Inoltre, tutte le strategie di ragionamento affrontano sfide nel migliorare le prestazioni su compiti con contesti lunghi e tabelle multiple. Per affrontare queste limitazioni, sviluppiamo un modello potenziato per il ragionamento finanziario basato su Llama-3.1-8B-Instruct, mediante fine-tuning di CoT e apprendimento per rinforzo con percorsi di ragionamento specifici del dominio. Anche con un semplice fine-tuning con un set di dati finanziari, il nostro modello ottiene un miglioramento delle prestazioni del 10% costante su tutti i compiti, superando tutti i modelli da 8B e persino Llama3-70B-Instruct e Llama3.1-70B-Instruct in media. I nostri risultati sottolineano la necessità di adattamenti specifici del dominio nei compiti finanziari, sottolineando future direzioni come il ragionamento su tabelle multiple, l'elaborazione di contesti lunghi e la comprensione dei termini finanziari. Tutti i nostri set di dati, modelli e codici sono disponibili pubblicamente. Inoltre, introduciamo una classifica per il benchmarking di futuri set di dati e modelli.
English
Recent advancements in large language models (LLMs) have shown strong general
reasoning abilities, yet their effectiveness in financial reasoning remains
underexplored. In this study, we comprehensively evaluate 16 powerful reasoning
and general LLMs on three complex financial tasks involving financial text,
tabular data, and equations, assessing numerical reasoning, tabular
interpretation, financial terminology comprehension, long-context processing,
and equation-based problem solving. Our results show that while better datasets
and pretraining improve financial reasoning, general enhancements like CoT
fine-tuning do not always yield consistent gains. Moreover, all reasoning
strategies face challenges in improving performance on long-context and
multi-table tasks. To address these limitations, we develop a financial
reasoning-enhanced model based on Llama-3.1-8B-Instruct, by CoT fine-tuning and
reinforcement learning with domain-specific reasoning paths. Even with simple
fine-tuning with one financial dataset, our model achieves a consistent 10%
performance improvement across tasks, surpassing all 8B models and even
Llama3-70B-Instruct and Llama3.1-70B-Instruct on average. Our results highlight
the need for domain-specific adaptations in financial tasks, emphasizing future
directions such as multi-table reasoning, long-context processing, and
financial terminology comprehension. All our datasets, models, and codes are
publicly available. Furthermore, we introduce a leaderboard for benchmarking
future datasets and models.Summary
AI-Generated Summary