Conv-FinRe: Um Benchmark Conversacional e Longitudinal para Recomendação Financeira Baseada em Utilidade

Resumo

A maioria dos benchmarks de recomendação avaliam quão bem um modelo imita o comportamento do utilizador. No entanto, na consultoria financeira, as ações observadas podem ser ruidosas ou de curto prazo sob a volatilidade do mercado e podem conflituar com os objetivos de longo prazo de um utilizador. Portanto, tratar o que os utilizadores escolheram como a única verdade fundamental confunde a imitação comportamental com a qualidade da decisão. Apresentamos o Conv-FinRe, um benchmark conversacional e longitudinal para recomendação de ações que avalia os LLMs (Large Language Models) para além da correspondência comportamental. Dada uma entrevista inicial de integração, um contexto de mercado passo a passo e diálogos de consultoria, os modelos devem gerar classificações (rankings) ao longo de um horizonte de investimento fixo. Crucialmente, o Conv-FinRe fornece referências de múltiplas perspetivas que distinguem o comportamento descritivo da utilidade normativa, baseada nas preferências de risco específicas do investidor, permitindo diagnosticar se um LLM segue uma análise racional, imita o ruído do utilizador ou é impulsionado pelo momentum do mercado. Construímos o benchmark a partir de dados reais de mercado e trajetórias de decisão humanas, instanciamos conversas de consultoria controladas e avaliamos um conjunto de LLMs state-of-the-art. Os resultados revelam uma tensão persistente entre a qualidade da decisão racional e o alinhamento comportamental: os modelos que se saem bem na classificação baseada na utilidade frequentemente falham em corresponder às escolhas do utilizador, enquanto os modelos alinhados comportamentalmente podem sofrer de sobreajuste (overfitting) ao ruído de curto prazo. O conjunto de dados é disponibilizado publicamente no Hugging Face, e a base de código está disponível no GitHub.

English

Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.