Conv-FinRe: Un Benchmark Conversazionale e Longitudinale per la Raccomandazione Finanziaria Basata sull'Utilità

Abstract

La maggior parte dei benchmark di raccomandazione valutano quanto bene un modello imita il comportamento dell'utente. Tuttavia, nel contesto della consulenza finanziaria, le azioni osservate possono essere rumorose o miopi a causa della volatilità del mercato e possono entrare in conflitto con gli obiettivi a lungo termine di un utente. Trattare le scelte degli utenti come unica verità di riferimento, pertanto, confonde l'imitazione comportamentale con la qualità decisionale. Introduciamo Conv-FinRe, un benchmark conversazionale e longitudinale per la raccomandazione di azioni che valuta i Modelli Linguistici di Grande Dimensione (LLM) andando oltre la semplice corrispondenza comportamentale. Dati un colloquio iniziale, un contesto di mercato graduale e dialoghi di consulenza, i modelli devono generare classifiche su un orizzonte di investimento fisso. Fondamentalmente, Conv-FinRe fornisce riferimenti a più viste che distinguono il comportamento descrittivo dall'utilità normativa basata sulle preferenze di rischio specifiche dell'investitore, consentendo di diagnosticare se un LLM segue un'analisi razionale, imita il rumore dell'utente o è guidato dallo slancio del mercato. Costruiamo il benchmark a partire da dati di mercato reali e traiettorie decisionali umane, istanziamo conversazioni di consulenza controllate e valutiamo una serie di LLM all'avanguardia. I risultati rivelano una tensione persistente tra la qualità decisionale razionale e l'allineamento comportamentale: i modelli che performano bene sulla classificazione basata sull'utilità spesso non corrispondono alle scelte degli utenti, mentre i modelli allineati comportamentalmente possono adattarsi eccessivamente al rumore a breve termine. Il dataset è pubblicamente disponibile su Hugging Face e il codice è disponibile su GitHub.

English

Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.

Conv-FinRe: Un Benchmark Conversazionale e Longitudinale per la Raccomandazione Finanziaria Basata sull'Utilità

Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Abstract

Support