Desbloqueando el Valor de los Datos en las Finanzas: Un Estudio sobre la Destilación y el Entrenamiento Consciente de la Dificultad

Resumen

Los Modelos de Lenguaje Grandes (LLM) han demostrado sólidas capacidades generales, sin embargo, su despliegue en el ámbito financiero sigue siendo un desafío debido a la densa terminología específica del dominio, los estrictos requisitos de razonamiento numérico y la baja tolerancia a errores fácticos. Realizamos un estudio empírico controlado que muestra que, en dominios verticales especializados, el rendimiento está determinado en gran medida por la calidad y el perfil de dificultad/verificabilidad de los datos posteriores al entrenamiento. Presentamos ODA-Fin-SFT-318k, construido mediante destilación y verificación en múltiples etapas para producir supervisión de alta calidad basada en Cadenas de Pensamiento (CoT), y ODA-Fin-RL-12k, curado para tareas difíciles pero verificables que equilibran la precisión de la recompensa y la diversidad de tareas. Utilizando pipelines estándar de SFT y RL, demostramos que la destilación de CoT de alta calidad establece una base sólida durante el SFT, mientras que el muestreo consciente de la dificultad y la verificabilidad mejora la generalización del RL. Evaluado en nueve benchmarks que abarcan tareas financieras generales, análisis de sentimientos y razonamiento numérico, nuestro modelo ODA-Fin-RL-8B supera consistentemente a los LLM financieros de código abierto más avanzados (SOTA) de tamaño comparable. Publicamos nuestros conjuntos de datos ODA-Fin-SFT-318k y ODA-Fin-RL-12k, junto con los modelos entrenados, para impulsar la investigación en IA financiera centrada en datos.

English

Large Language Models (LLMs) have demonstrated strong general capabilities, yet their deployment in finance remains challenging due to dense domain-specific terminology, stringent numerical reasoning requirements, and low tolerance for factual errors. We conduct a controlled empirical study showing that in specialized vertical domains, performance is largely determined by the quality and difficulty/verifiability profile of post-training data. We introduce ODA-Fin-SFT-318k, constructed via multi-stage distillation and verification to produce high-quality Chain-of-Thought supervision, and ODA-Fin-RL-12k, curated for hard-but-verifiable tasks that balance reward precision and task diversity. Using standard SFT and RL pipelines, we show that high-quality CoT distillation establishes a robust foundation during SFT, while difficulty- and verifiability-aware sampling improves RL generalization. Evaluated on nine benchmarks spanning general financial tasks, sentiment analysis, and numerical reasoning, our ODA-Fin-RL-8B consistently surpasses open-source state-of-the-art (SOTA) financial LLMs of comparable size. We release our ODA-Fin-SFT-318k and ODA-Fin-RL-12k datasets, along with trained models to advance data-centric financial AI research.

Desbloqueando el Valor de los Datos en las Finanzas: Un Estudio sobre la Destilación y el Entrenamiento Consciente de la Dificultad

Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

Resumen

Support