Entfesselung des Datenwerts in der Finanzwelt: Eine Studie zu Distillation und schwierigkeitsbewusstem Training

Zusammenfassung

Große Sprachmodelle (LLMs) haben starke allgemeine Fähigkeiten demonstriert, doch ihr Einsatz im Finanzwesen bleibt aufgrund von dichtem domänenspezifischem Fachvokabular, strengen Anforderungen an numerisches Reasoning und geringer Toleranz gegenüber faktischen Fehlern herausfordernd. Wir führen eine kontrollierte empirische Studie durch, die zeigt, dass in spezialisierten vertikalen Domänen die Leistung weitgehend von der Qualität und dem Schwierigkeits-/Verifizierbarkeitsprofil der Post-Training-Daten bestimmt wird. Wir stellen ODA-Fin-SFT-318k vor, das durch mehrstufige Destillation und Verifikation konstruiert wurde, um hochwertige Chain-of-Thought-Aufsicht zu erzeugen, sowie ODA-Fin-RL-12k, das für schwierige aber verifizierbare Aufgaben kuratiert wurde, um Belohnungspräzision und Aufgabenvariabilität auszugleichen. Unter Verwendung standardmäßiger SFT- und RL-Pipelines zeigen wir, dass hochwertige CoT-Destillation eine robuste Grundlage während des SFT schafft, während schwierigkeits- und verifizierbarkeitsbewusstes Sampling die RL-Generalisation verbessert. Evaluierungen auf neun Benchmarks, die allgemeine Finanzaufgaben, Sentimentanalyse und numerisches Reasoning abdecken, zeigen, dass unser ODA-Fin-RL-8B durchgehend Open-Source-State-of-the-Art (SOTA) Finanz-LLMs vergleichbarer Größe übertrifft. Wir veröffentlichen unsere ODA-Fin-SFT-318k- und ODA-Fin-RL-12k-Datensätze sowie trainierte Modelle, um datenzentrierte Finanz-KI-Forschung voranzutreiben.

English

Large Language Models (LLMs) have demonstrated strong general capabilities, yet their deployment in finance remains challenging due to dense domain-specific terminology, stringent numerical reasoning requirements, and low tolerance for factual errors. We conduct a controlled empirical study showing that in specialized vertical domains, performance is largely determined by the quality and difficulty/verifiability profile of post-training data. We introduce ODA-Fin-SFT-318k, constructed via multi-stage distillation and verification to produce high-quality Chain-of-Thought supervision, and ODA-Fin-RL-12k, curated for hard-but-verifiable tasks that balance reward precision and task diversity. Using standard SFT and RL pipelines, we show that high-quality CoT distillation establishes a robust foundation during SFT, while difficulty- and verifiability-aware sampling improves RL generalization. Evaluated on nine benchmarks spanning general financial tasks, sentiment analysis, and numerical reasoning, our ODA-Fin-RL-8B consistently surpasses open-source state-of-the-art (SOTA) financial LLMs of comparable size. We release our ODA-Fin-SFT-318k and ODA-Fin-RL-12k datasets, along with trained models to advance data-centric financial AI research.

Entfesselung des Datenwerts in der Finanzwelt: Eine Studie zu Distillation und schwierigkeitsbewusstem Training

Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

Zusammenfassung

Support