Conv-FinRe: Un Punto de Referencia Conversacional y Longitudinal para la Recomendación Financiera Basada en la Utilidad

Resumen

La mayoría de los puntos de referencia para recomendaciones evalúan qué tan bien un modelo imita el comportamiento del usuario. Sin embargo, en la asesoría financiera, las acciones observadas pueden ser ruidosas o miopes bajo la volatilidad del mercado y pueden entrar en conflicto con los objetivos a largo plazo del usuario. Por lo tanto, tratar lo que los usuarios eligieron como la única verdad absoluta confunde la imitación conductual con la calidad de la decisión. Presentamos Conv-FinRe, un punto de referencia conversacional y longitudinal para la recomendación de acciones que evalúa a los LLMs más allá de la coincidencia conductual. Dada una entrevista inicial de incorporación, un contexto de mercado paso a paso y diálogos de asesoría, los modelos deben generar clasificaciones a lo largo de un horizonte de inversión fijo. Crucialmente, Conv-FinRe proporciona referencias de múltiples perspectivas que distinguen el comportamiento descriptivo de la utilidad normativa basada en las preferencias de riesgo específicas del inversor, permitiendo diagnosticar si un LLM sigue un análisis racional, imita el ruido del usuario o está impulsado por el momentum del mercado. Construimos el punto de referencia a partir de datos reales del mercado y trayectorias de decisiones humanas, instanciamos conversaciones de asesoría controladas y evaluamos un conjunto de LLMs de última generación. Los resultados revelan una tensión persistente entre la calidad racional de la decisión y la alineación conductual: los modelos que funcionan bien en la clasificación basada en utilidad a menudo no coinciden con las elecciones del usuario, mientras que los modelos alineados conductualmente pueden sobreajustarse al ruido a corto plazo. El conjunto de datos se ha publicado públicamente en Hugging Face, y el código base está disponible en GitHub.

English

Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.

Conv-FinRe: Un Punto de Referencia Conversacional y Longitudinal para la Recomendación Financiera Basada en la Utilidad

Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Resumen

Support