행동 기반 추론 체인 합성: 개인 금융 LLM을 위한 데이터 생성 프레임워크
Synthesizing Behaviorally-Grounded Reasoning Chains: A Data-Generation Framework for Personal Finance LLMs
September 17, 2025
저자: Akhil Theerthala
cs.AI
초록
개인화된 금융 조언은 사용자의 목표, 제약 조건, 위험 감수성 및 관할권을 고려해야 합니다. 기존의 대형 언어 모델(LLM) 연구는 투자자와 재무 설계자를 위한 지원 시스템에 초점을 맞추었습니다. 동시에, 최근의 많은 연구들은 예산 관리, 부채 관리, 은퇴 및 부동산 계획을 포함한 더 광범위한 개인 금융 작업을 에이전트 파이프라인을 통해 조사해 왔으며, 이는 높은 유지 관리 비용을 초래하면서 기대 금융 수익의 25% 미만을 달성했습니다. 본 연구에서는 관련 금융 컨텍스트와 행동 금융 연구를 통합하여 종단간 조언자를 위한 감독 데이터를 구성하는 새로운 재현 가능한 프레임워크를 소개합니다. 이 프레임워크를 사용하여 19k 샘플 추론 데이터셋을 생성하고 Qwen-3-8B 모델을 이 데이터셋에 대해 포괄적으로 미세 조정합니다. 보류된 테스트 분할과 블라인드 LLM-배심원 연구를 통해, 신중한 데이터 큐레이션과 행동 통합을 통해 우리의 8B 모델이 사실 정확성, 유창성 및 개인화 지표에서 상당히 큰 베이스라인(14-32B 매개변수)과 비슷한 성능을 달성하면서 더 큰 대조군보다 80% 낮은 비용을 발생시킨다는 것을 입증합니다.
English
Personalized financial advice requires consideration of user goals,
constraints, risk tolerance, and jurisdiction. Prior LLM work has focused on
support systems for investors and financial planners. Simultaneously, numerous
recent studies examine broader personal finance tasks, including budgeting,
debt management, retirement, and estate planning, through agentic pipelines
that incur high maintenance costs, yielding less than 25% of their expected
financial returns. In this study, we introduce a novel and reproducible
framework that integrates relevant financial context with behavioral finance
studies to construct supervision data for end-to-end advisors. Using this
framework, we create a 19k sample reasoning dataset and conduct a comprehensive
fine-tuning of the Qwen-3-8B model on the dataset. Through a held-out test
split and a blind LLM-jury study, we demonstrate that through careful data
curation and behavioral integration, our 8B model achieves performance
comparable to significantly larger baselines (14-32B parameters) across factual
accuracy, fluency, and personalization metrics while incurring 80% lower costs
than the larger counterparts.