ChatPaper.aiChatPaper

Het ontrafelen van Domein-adaptieve Post-training voor Financiële LLM's

Demystifying Domain-adaptive Post-training for Financial LLMs

January 9, 2025
Auteurs: Zixuan Ke, Yifei Ming, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty
cs.AI

Samenvatting

Domein-adaptieve post-training van grote taalmodellen (LLM's) is naar voren gekomen als een veelbelovende benadering voor gespecialiseerde domeinen zoals geneeskunde en financiën. Er blijven echter aanzienlijke uitdagingen bestaan bij het identificeren van optimale aanpassingscriteria en trainingsstrategieën over verschillende gegevens- en modelconfiguraties. Om deze uitdagingen aan te pakken, introduceren we FINDAP, een systematisch en gedetailleerd onderzoek naar domein-adaptieve post-training van LLM's voor het financiële domein. Onze aanpak begint met het identificeren van de kerncapaciteiten die vereist zijn voor het doeldomein en het ontwerpen van een uitgebreide evaluatiesuite die aansluit bij deze behoeften. Vervolgens analyseren we de effectiviteit van belangrijke post-training fasen, waaronder voortdurende voorbereiding, instructie-afstemming en voorkeursuitlijning. Voortbouwend op deze inzichten stellen we een effectief trainingsrecept voor dat gericht is op een nieuwe methode voor het distilleren van voorkeursgegevens, die gebruikmaakt van procesignalen van een generatief beloningsmodel. Het resulterende model, Llama-Fin, behaalt state-of-the-art prestaties over een breed scala aan financiële taken. Onze analyse benadrukt ook hoe elke post-training fase bijdraagt aan onderscheidende capaciteiten, waarbij specifieke uitdagingen en effectieve oplossingen worden blootgelegd, wat waardevolle inzichten biedt voor domeinadaptatie van LLM's. Projectpagina: https://github.com/SalesforceAIResearch/FinDap
English
Domain-adaptive post-training of large language models (LLMs) has emerged as a promising approach for specialized domains such as medicine and finance. However, significant challenges remain in identifying optimal adaptation criteria and training strategies across varying data and model configurations. To address these challenges, we introduce FINDAP, a systematic and fine-grained investigation into domain-adaptive post-training of LLMs for the finance domain. Our approach begins by identifying the core capabilities required for the target domain and designing a comprehensive evaluation suite aligned with these needs. We then analyze the effectiveness of key post-training stages, including continual pretraining, instruction tuning, and preference alignment. Building on these insights, we propose an effective training recipe centered on a novel preference data distillation method, which leverages process signals from a generative reward model. The resulting model, Llama-Fin, achieves state-of-the-art performance across a wide range of financial tasks. Our analysis also highlights how each post-training stage contributes to distinct capabilities, uncovering specific challenges and effective solutions, providing valuable insights for domain adaptation of LLMs. Project page: https://github.com/SalesforceAIResearch/FinDap

Summary

AI-Generated Summary

PDF112January 13, 2025