ChatPaper.aiChatPaper

Conv-FinRe:有用性に基づく金融レコメンデーションのための対話的・長期的ベンチマーク

Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

February 19, 2026
著者: Yan Wang, Yi Han, Lingfei Qian, Yueru He, Xueqing Peng, Dongji Feng, Zhuohan Xie, Vincent Jim Zhang, Rosie Guo, Fengran Mo, Jimin Huang, Yankai Chen, Xue Liu, Jian-Yun Nie
cs.AI

要旨

従来の推薦システムのベンチマークは、モデルがユーザーの行動をどれだけ正確に模倣できるかを評価する場合がほとんどです。しかし金融アドバイザリーの領域では、市場の変動性のもとで観測されるユーザー行動はノイズを含んでいたり短絡的であったりし、ユーザーの長期的目標と矛盾する可能性があります。したがって、ユーザーの選択を唯一の正解として扱うことは、行動の模倣と意思決定の質を混同することになります。本研究では、行動の一致を超えたLLMの評価を可能とする、会話型で長期的な視点を持つ株式推薦ベンチマーク「Conv-FinRe」を提案します。オンボーディング面談、段階的な市場状況の提示、アドバイザリー対話を入力として、モデルは所定の投資期間にわたるランキングを生成する必要があります。重要な点として、Conv-FinReは、投資家固有のリスク選好に基づく規範的な効用と記述的な行動を区別するマルチビュー参照を提供し、LLMが合理的な分析に従っているのか、ユーザーのノイズを模倣しているのか、あるいは市場の勢いに駆られているのかを診断することを可能にします。本ベンチマークは実市場データと人間の意思決定軌跡から構築され、制御されたアドバイザリー会話を具体化し、一連の最先端LLMを評価します。結果は、合理的な意思決定の質と行動の一致との間に持続的な緊張関係があることを明らかにしています:効用ベースのランキングで良好な性能を示すモデルはユーザーの選択と一致しないことが多く、逆に行動に沿ったモデルは短期的なノイズに過剰適合する可能性があります。データセットはHugging Faceで公開され、コードベースはGitHubで利用可能です。
English
Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.
PDF112March 28, 2026