Conv-FinRe: Eine konversationelle und longitudinale Benchmark für nutzenbasierte Finanzempfehlungen

Zusammenfassung

Die meisten Empfehlungs-Benchmarks bewerten, wie gut ein Modell das Nutzerverhalten imitiert. In der Finanzberatung können beobachtete Handlungen jedoch aufgrund von Marktvolatilität verrauscht oder kurzsichtig sein und mit den langfristigen Zielen eines Nutzers in Konflikt stehen. Die alleinige Behandlung der Nutzerauswahl als absolute Grundwahrheit vermengt daher Verhaltensimitation mit Entscheidungsqualität. Wir stellen Conv-FinRe vor, einen konversationellen und longitudinalen Benchmark für Aktienempfehlungen, der LLMs über reine Verhaltensabgleichung hinaus bewertet. Basierend auf einem Onboarding-Interview, schrittweisem Marktkontext und Beratungsdialogen müssen Modelle Ranglisten über einen festen Anlagehorizont generieren. Entscheidend ist, dass Conv-FinRe Multi-View-Referenzen bereitstellt, die beschreibendes Verhalten von normativer Nutzenbewertung unterscheiden, die auf investorspezifischen Risikopräferenzen basiert. Dies ermöglicht die Diagnose, ob ein LLM rationaler Analyse folgt, Nutzerrauschen imitiert oder von Marktmomentum getrieben wird. Wir konstruieren den Benchmark aus realen Marktdaten und menschlichen Entscheidungspfaden, instanziieren kontrollierte Beratungsgespräche und evaluieren eine Reihe modernster LLMs. Die Ergebnisse zeigen eine anhaltende Spannung zwischen rationaler Entscheidungsqualität und verhaltensbezogener Ausrichtung: Modelle, die bei nutzenbasiertem Ranking gut abschneiden, scheitern oft an der Übereinstimmung mit Nutzerentscheidungen, während verhaltensalignierte Modelle kurzfristiges Rauschen overfitten können. Der Datensatz ist auf Hugging Face öffentlich verfügbar, und die Codebasis ist auf GitHub zugänglich.

English

Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.

Conv-FinRe: Eine konversationelle und longitudinale Benchmark für nutzenbasierte Finanzempfehlungen

Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Zusammenfassung

Support