Раскрытие ценности данных в финансах: исследование методов дистилляции и обучения с учетом сложности

Аннотация

Крупные языковые модели (LLM) продемонстрировали высокие общие способности, однако их развертывание в финансовой сфере остается сложной задачей из-за насыщенной предметной терминологии, строгих требований к численным рассуждениям и низкой терпимости к фактическим ошибкам. Мы проводим контролируемое эмпирическое исследование, показывающее, что в специализированных вертикальных доменах производительность в значительной степени определяется качеством и профилем сложности/проверяемости данных пост-обучения. Мы представляем наборы данных ODA-Fin-SFT-318k, созданный посредством многоступенчатой дистилляции и верификации для получения высококачественных данных с цепочкой рассуждений (Chain-of-Thought), и ODA-Fin-RL-12k, отобранный для сложных, но проверяемых задач, которые балансируют точность вознаграждения и разнообразие задач. Используя стандартные конвейеры SFT и RL, мы показываем, что высококачественная дистилляция CoT создает надежную основу на этапе SFT, в то время как выборка с учетом сложности и проверяемости улучшает обобщающую способность RL. При оценке на девяти тестовых наборах, охватывающих общие финансовые задачи, анализ тональности и численные рассуждения, наша модель ODA-Fin-RL-8B последовательно превосходит передовые открытые финансовые LLM сопоставимого размера. Мы публикуем наши наборы данных ODA-Fin-SFT-318k и ODA-Fin-RL-12k, а также обученные модели для развития ориентированных на данные исследований в области финансового ИИ.

English

Large Language Models (LLMs) have demonstrated strong general capabilities, yet their deployment in finance remains challenging due to dense domain-specific terminology, stringent numerical reasoning requirements, and low tolerance for factual errors. We conduct a controlled empirical study showing that in specialized vertical domains, performance is largely determined by the quality and difficulty/verifiability profile of post-training data. We introduce ODA-Fin-SFT-318k, constructed via multi-stage distillation and verification to produce high-quality Chain-of-Thought supervision, and ODA-Fin-RL-12k, curated for hard-but-verifiable tasks that balance reward precision and task diversity. Using standard SFT and RL pipelines, we show that high-quality CoT distillation establishes a robust foundation during SFT, while difficulty- and verifiability-aware sampling improves RL generalization. Evaluated on nine benchmarks spanning general financial tasks, sentiment analysis, and numerical reasoning, our ODA-Fin-RL-8B consistently surpasses open-source state-of-the-art (SOTA) financial LLMs of comparable size. We release our ODA-Fin-SFT-318k and ODA-Fin-RL-12k datasets, along with trained models to advance data-centric financial AI research.

Раскрытие ценности данных в финансах: исследование методов дистилляции и обучения с учетом сложности

Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

Аннотация

Support