Desbloqueando o Valor dos Dados em Finanças: Um Estudo sobre a Destilação e o Treinamento Consciente da Dificuldade

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) demonstraram fortes capacidades gerais, mas sua implantação no setor financeiro continua desafiadora devido à terminologia densa e específica do domínio, requisitos rigorosos de raciocínio numérico e baixa tolerância a erros factuais. Realizamos um estudo empírico controlado que mostra que, em domínios verticais especializados, o desempenho é largamente determinado pela qualidade e pelo perfil de dificuldade/verificabilidade dos dados de pós-treinamento. Introduzimos o ODA-Fin-SFT-318k, construído por meio de destilação e verificação em múltiplos estágios para produzir supervisão de alta qualidade em Cadeia de Pensamento (CoT), e o ODA-Fin-RL-12k, curado para tarefas difíceis mas verificáveis que equilibram precisão de recompensa e diversidade de tarefas. Utilizando pipelines padrão de SFT e RL, mostramos que a destilação de CoT de alta qualidade estabelece uma base robusta durante o SFT, enquanto a amostragem consciente da dificuldade e da verificabilidade melhora a generalização do RL. Avaliado em nove benchmarks abrangendo tarefas financeiras gerais, análise de sentimento e raciocínio numérico, nosso modelo ODA-Fin-RL-8B supera consistentemente os LLMs financeiros open-source state-of-the-art (SOTA) de tamanho comparável. Disponibilizamos nossos conjuntos de dados ODA-Fin-SFT-318k e ODA-Fin-RL-12k, juntamente com os modelos treinados, para avançar a pesquisa em IA financeira centrada em dados.

English

Large Language Models (LLMs) have demonstrated strong general capabilities, yet their deployment in finance remains challenging due to dense domain-specific terminology, stringent numerical reasoning requirements, and low tolerance for factual errors. We conduct a controlled empirical study showing that in specialized vertical domains, performance is largely determined by the quality and difficulty/verifiability profile of post-training data. We introduce ODA-Fin-SFT-318k, constructed via multi-stage distillation and verification to produce high-quality Chain-of-Thought supervision, and ODA-Fin-RL-12k, curated for hard-but-verifiable tasks that balance reward precision and task diversity. Using standard SFT and RL pipelines, we show that high-quality CoT distillation establishes a robust foundation during SFT, while difficulty- and verifiability-aware sampling improves RL generalization. Evaluated on nine benchmarks spanning general financial tasks, sentiment analysis, and numerical reasoning, our ODA-Fin-RL-8B consistently surpasses open-source state-of-the-art (SOTA) financial LLMs of comparable size. We release our ODA-Fin-SFT-318k and ODA-Fin-RL-12k datasets, along with trained models to advance data-centric financial AI research.

Desbloqueando o Valor dos Dados em Finanças: Um Estudo sobre a Destilação e o Treinamento Consciente da Dificuldade

Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

Resumo

Support