Conv-FinRe: 유틸리티 기반 금융 추천을 위한 대화 및 종단적 벤치마크
Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation
February 19, 2026
저자: Yan Wang, Yi Han, Lingfei Qian, Yueru He, Xueqing Peng, Dongji Feng, Zhuohan Xie, Vincent Jim Zhang, Rosie Guo, Fengran Mo, Jimin Huang, Yankai Chen, Xue Liu, Jian-Yun Nie
cs.AI
초록
대부분의 추천 시스템 벤치마크는 모델이 사용자 행동을 얼마나 잘 모방하는지 평가합니다. 그러나 금융 조언 분야에서는 시장 변동성 하에서 관찰된 행동이 노이즈가 많거나 단기적일 수 있으며, 사용자의 장기 목표와 충돌할 가능성이 있습니다. 따라서 사용자의 선택을 유일한 기준으로 삼는 것은 행동 모방과 의사 결정 질을 혼동하는 것입니다. 본 연구에서는 행동 매칭을 넘어 LLM(대형 언어 모델)을 평가하는 대화형 및 종단적 주식 추천 벤치마크인 Conv-FinRe를 소개합니다. 온보딩 인터뷰, 단계별 시장 상황, 조언 대화를 바탕으로 모델은 고정된 투자 기간 동안 순위를 생성해야 합니다. 중요한 것은 Conv-FinRe가 투자자별 위험 선호도를 기반으로 한 규범적 효용과 기술적 행동을 구분하는 다중 관점 참조를 제공하여, LLM이 합리적 분석을 따르는지, 사용자 노이즈를 모방하는지, 아니면 시장 모멘텀에 의해 주도되는지를 진단할 수 있게 합니다. 우리는 실제 시장 데이터와 인간의 의사 결정 궤적을 바탕으로 벤치마크를 구축하고, 통제된 조언 대화를 구현하며, 최첨단 LLM들을 평가합니다. 결과는 합리적 의사 결정 질과 행동 정렬 사이의 지속적인 긴장 관계를 보여줍니다: 효용 기반 순위에서 우수한 성능을 보이는 모델은 사용자 선택과 일치하지 않는 경우가 많고, 행동 정렬 모델은 단기 노이즈에 과적합될 수 있습니다. 데이터셋은 Hugging Face에 공개되었으며, 코드베이스는 GitHub에서 이용 가능합니다.
English
Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.