Débloquer la valeur des données en finance : Une étude sur l'entraînement par distillation et la prise en compte de la difficulté

Résumé

Les grands modèles de langage (LLM) ont démontré de solides capacités générales, mais leur déploiement en finance reste difficile en raison d'une terminologie spécialisée dense, d'exigences rigoureuses en raisonnement numérique et d'une faible tolérance aux erreurs factuelles. Nous menons une étude empirique contrôlée montrant que dans les domaines spécialisés verticaux, la performance est largement déterminée par la qualité et le profil de difficulté/vérifiabilité des données post-entraînement. Nous présentons ODA-Fin-SFT-318k, construit via une distillation multi-étapes et une vérification pour produire un supervision de haute qualité de type chaîne de raisonnement (Chain-of-Thought), et ODA-Fin-RL-12k, conçu pour des tâches difficiles mais vérifiables qui équilibrent précision de récompense et diversité des tâches. En utilisant des pipelines standards de SFT (Supervised Fine-Tuning) et RL (Reinforcement Learning), nous montrons qu'une distillation de haute qualité de chaînes de raisonnement établit une base robuste durant le SFT, tandis qu'un échantillonnage tenant compte de la difficulté et de la vérifiabilité améliore la généralisation en RL. Évalué sur neuf benchmarks couvrant des tâches financières générales, l'analyse de sentiment et le raisonnement numérique, notre modèle ODA-Fin-RL-8B surpasse constamment les LLM financiers open-source de pointe (SOTA) de taille comparable. Nous publions nos ensembles de données ODA-Fin-SFT-318k et ODA-Fin-RL-12k, ainsi que les modèles entraînés, pour faire progresser la recherche en IA financière centrée sur les données.

English

Large Language Models (LLMs) have demonstrated strong general capabilities, yet their deployment in finance remains challenging due to dense domain-specific terminology, stringent numerical reasoning requirements, and low tolerance for factual errors. We conduct a controlled empirical study showing that in specialized vertical domains, performance is largely determined by the quality and difficulty/verifiability profile of post-training data. We introduce ODA-Fin-SFT-318k, constructed via multi-stage distillation and verification to produce high-quality Chain-of-Thought supervision, and ODA-Fin-RL-12k, curated for hard-but-verifiable tasks that balance reward precision and task diversity. Using standard SFT and RL pipelines, we show that high-quality CoT distillation establishes a robust foundation during SFT, while difficulty- and verifiability-aware sampling improves RL generalization. Evaluated on nine benchmarks spanning general financial tasks, sentiment analysis, and numerical reasoning, our ODA-Fin-RL-8B consistently surpasses open-source state-of-the-art (SOTA) financial LLMs of comparable size. We release our ODA-Fin-SFT-318k and ODA-Fin-RL-12k datasets, along with trained models to advance data-centric financial AI research.

Débloquer la valeur des données en finance : Une étude sur l'entraînement par distillation et la prise en compte de la difficulté

Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

Résumé

Support