Desbloqueando o Valor dos Dados em Finanças: Um Estudo sobre a Destilação e o Treinamento Consciente da Dificuldade
Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training
March 7, 2026
Autores: Chuxue Cao, Honglin Lin, Zhanping Zhong, Xin Gao, Mengzhang Cai, Conghui He, Sirui Han, Lijun Wu
cs.AI
Resumo
Os Modelos de Linguagem de Grande Porte (LLMs) demonstraram fortes capacidades gerais, mas sua implantação no setor financeiro continua desafiadora devido à terminologia densa e específica do domínio, requisitos rigorosos de raciocínio numérico e baixa tolerância a erros factuais. Realizamos um estudo empírico controlado que mostra que, em domínios verticais especializados, o desempenho é largamente determinado pela qualidade e pelo perfil de dificuldade/verificabilidade dos dados de pós-treinamento. Introduzimos o ODA-Fin-SFT-318k, construído por meio de destilação e verificação em múltiplos estágios para produzir supervisão de alta qualidade em Cadeia de Pensamento (CoT), e o ODA-Fin-RL-12k, curado para tarefas difíceis mas verificáveis que equilibram precisão de recompensa e diversidade de tarefas. Utilizando pipelines padrão de SFT e RL, mostramos que a destilação de CoT de alta qualidade estabelece uma base robusta durante o SFT, enquanto a amostragem consciente da dificuldade e da verificabilidade melhora a generalização do RL. Avaliado em nove benchmarks abrangendo tarefas financeiras gerais, análise de sentimento e raciocínio numérico, nosso modelo ODA-Fin-RL-8B supera consistentemente os LLMs financeiros open-source state-of-the-art (SOTA) de tamanho comparável. Disponibilizamos nossos conjuntos de dados ODA-Fin-SFT-318k e ODA-Fin-RL-12k, juntamente com os modelos treinados, para avançar a pesquisa em IA financeira centrada em dados.
English
Large Language Models (LLMs) have demonstrated strong general capabilities, yet their deployment in finance remains challenging due to dense domain-specific terminology, stringent numerical reasoning requirements, and low tolerance for factual errors. We conduct a controlled empirical study showing that in specialized vertical domains, performance is largely determined by the quality and difficulty/verifiability profile of post-training data. We introduce ODA-Fin-SFT-318k, constructed via multi-stage distillation and verification to produce high-quality Chain-of-Thought supervision, and ODA-Fin-RL-12k, curated for hard-but-verifiable tasks that balance reward precision and task diversity. Using standard SFT and RL pipelines, we show that high-quality CoT distillation establishes a robust foundation during SFT, while difficulty- and verifiability-aware sampling improves RL generalization. Evaluated on nine benchmarks spanning general financial tasks, sentiment analysis, and numerical reasoning, our ODA-Fin-RL-8B consistently surpasses open-source state-of-the-art (SOTA) financial LLMs of comparable size. We release our ODA-Fin-SFT-318k and ODA-Fin-RL-12k datasets, along with trained models to advance data-centric financial AI research.