Conv-FinRe : Un benchmark conversationnel et longitudinal pour la recommandation financière fondée sur l'utilité

Résumé

La plupart des benchmarks de recommandation évaluent la capacité d'un modèle à imiter le comportement des utilisateurs. Cependant, dans le conseil financier, les actions observées peuvent être bruitées ou myopes en période de volatilité des marchés et peuvent entrer en conflit avec les objectifs à long terme de l'utilisateur. Considérer les choix des utilisateurs comme la seule vérité de référence confond donc l'imitation comportementale avec la qualité décisionnelle. Nous présentons Conv-FinRe, un benchmark conversationnel et longitudinal pour la recommandation d'actions qui évalue les LLMs au-delà de l'adéquation comportementale. Sur la base d'un entretien d'intégration, d'un contexte de marché séquentiel et de dialogues de conseil, les modèles doivent générer des classements sur un horizon d'investissement fixe. Fait crucial, Conv-FinRe fournit des références multi-angles qui distinguent le comportement descriptif de l'utilité normative fondée sur les préférences de risque spécifiques à l'investisseur, permettant de diagnostiquer si un LLM suit une analyse rationnelle, imite le bruit utilisateur ou est influencé par le momentum du marché. Nous construisons le benchmark à partir de données de marché réelles et de trajectoires décisionnelles humaines, matérialisons des conversations de conseil contrôlées et évaluons une série de LLMs de pointe. Les résultats révèlent une tension persistante entre la qualité décisionnelle rationnelle et l'alignement comportemental : les modèles performants sur le classement basé sur l'utilité échouent souvent à correspondre aux choix des utilisateurs, tandis que les modèles alignés comportementalement peuvent surajuster le bruit à court terme. Le jeu de données est publiquement disponible sur Hugging Face, et le code source est accessible sur GitHub.

English

Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.

Conv-FinRe : Un benchmark conversationnel et longitudinal pour la recommandation financière fondée sur l'utilité

Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Résumé

Support