Sbloccare il Valore dei Dati in Finanza: Uno Studio sull'Addestramento per Distillazione e Consapevole della Difficoltà

Abstract

I Modelli Linguistici di Grande Dimensioni (LLM) hanno dimostrato forti capacità generali, tuttavia il loro dispiegamento in ambito finanziario rimane impegnativo a causa della densa terminologia di dominio specifico, dei rigorosi requisiti di ragionamento numerico e della bassa tolleranza per gli errori fattuali. Conduciamo uno studio empirico controllato che dimostra come, in domini verticali specializzati, le prestazioni siano largamente determinate dalla qualità e dal profilo di difficoltà/verificabilità dei dati post-addestramento. Introduciamo ODA-Fin-SFT-318k, costruito tramite una distillazione e verifica multi-stadio per produrre supervisione di alta qualità basata sul Ragionamento a Catena (Chain-of-Thought), e ODA-Fin-RL-12k, curato per compiti difficili ma verificabili che bilanciano la precisione della ricompensa e la diversità dei task. Utilizzando le pipeline standard di SFT (Supervised Fine-Tuning) e RL (Reinforcement Learning), mostriamo che una distillazione di alta qualità del CoT stabilisce una base solida durante l'SFT, mentre un campionamento consapevole della difficoltà e della verificabilità migliora la generalizzazione nell'RL. Valutato su nove benchmark che coprono task finanziari generali, analisi del sentiment e ragionamento numerico, il nostro modello ODA-Fin-RL-8B supera costantemente i migliori LLM finanziari open-source (SOTA) di dimensioni comparabili. Rilasciamo i nostri dataset ODA-Fin-SFT-318k e ODA-Fin-RL-12k, insieme ai modelli addestrati, per promuovere la ricerca sull'IA finanziaria incentrata sui dati.

English

Large Language Models (LLMs) have demonstrated strong general capabilities, yet their deployment in finance remains challenging due to dense domain-specific terminology, stringent numerical reasoning requirements, and low tolerance for factual errors. We conduct a controlled empirical study showing that in specialized vertical domains, performance is largely determined by the quality and difficulty/verifiability profile of post-training data. We introduce ODA-Fin-SFT-318k, constructed via multi-stage distillation and verification to produce high-quality Chain-of-Thought supervision, and ODA-Fin-RL-12k, curated for hard-but-verifiable tasks that balance reward precision and task diversity. Using standard SFT and RL pipelines, we show that high-quality CoT distillation establishes a robust foundation during SFT, while difficulty- and verifiability-aware sampling improves RL generalization. Evaluated on nine benchmarks spanning general financial tasks, sentiment analysis, and numerical reasoning, our ODA-Fin-RL-8B consistently surpasses open-source state-of-the-art (SOTA) financial LLMs of comparable size. We release our ODA-Fin-SFT-318k and ODA-Fin-RL-12k datasets, along with trained models to advance data-centric financial AI research.

Sbloccare il Valore dei Dati in Finanza: Uno Studio sull'Addestramento per Distillazione e Consapevole della Difficoltà

Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

Abstract

Support