Conv-FinRe: Een Conversationale en Longitudinale Benchmark voor Utiliteitsgebaseerde Financiële Aanbeveling

Samenvatting

De meeste aanbevelingsbenchmarks evalueren hoe goed een model gebruikersgedrag imiteert. In financiële advisering kunnen waargenomen acties echter ruis bevatten of kortzichtig zijn door marktvolatiliteit, en kunnen botsen met de langetermijndoelen van een gebruiker. Het behandelen van wat gebruikers kozen als de enige grondwaarheid verwart daarom gedragsimitatie met beslissingskwaliteit. Wij introduceren Conv-FinRe, een conversationele en longitudinale benchmark voor aandelenaanbevelingen die LLM's evalueert voorbij gedragsnabootsing. Op basis van een intakegesprek, stapsgewijze marktcontext en adviserende dialogen moeten modellen ranglijsten genereren over een vaste beleggingshorizon. Cruciaal is dat Conv-FinRe multi-view referenties biedt die beschrijvend gedrag onderscheiden van normatieve nuttigheid, geworteld in beleggerspecifieke risicovoorkeuren. Dit maakt een diagnose mogelijk of een LLM rationele analyse volgt, gebruikersruis imiteert, of wordt gedreven door marktmomentum. Wij bouwden de benchmark op basis van echte marktdata en menselijke beslissingstrajecten, concretiseerden gecontroleerde adviesgesprekken, en evalueerden een reeks state-of-the-art LLM's. Resultaten tonen een hardnekkige spanning tussen rationele beslissingskwaliteit en gedragsafstemming: modellen die goed presteren op nutsgebaseerde rangschikking, slagen er vaak niet in gebruikerskeuzes te evenaren, terwijl gedragsafgestemde modellen kunnen overfitten op kortetermijnruis. De dataset is openbaar vrijgegeven op Hugging Face, en de codebase is beschikbaar op GitHub.

English

Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.

Conv-FinRe: Een Conversationale en Longitudinale Benchmark voor Utiliteitsgebaseerde Financiële Aanbeveling

Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Samenvatting

Support