Conv-FinRe: Диалоговый и лонгитюдный бенчмарк для утилитарно-обоснованных финансовых рекомендаций

Аннотация

Большинство эталонных тестов для рекомендательных систем оценивают, насколько хорошо модель имитирует поведение пользователей. Однако в финансовом консультировании наблюдаемые действия могут быть зашумленными или недальновидными в условиях волатильности рынка и могут противоречить долгосрочным целям пользователя. Следовательно, принятие выбора пользователей за единственную истину смешивает поведенческую имитацию с качеством решений. Мы представляем Conv-FinRe, диалоговый и лонгитюдный эталонный тест для рекомендаций по акциям, который оценивает большие языковые модели (LLM) за пределами сопоставления с поведением. Получив вводное интервью, пошаговый рыночный контекст и консультационные диалоги, модели должны формировать ранжирования на фиксированном инвестиционном горизонте. Ключевым моментом является то, что Conv-FinRe предоставляет эталоны с несколькими точками зрения, которые различают описательное поведение и нормативную полезность, основанную на специфических для инвестора предпочтениях риска, что позволяет диагностировать, следует ли LLM рациональному анализу, имитирует ли пользовательский шум или движима рыночным трендом. Мы создали этот тест на основе реальных рыночных данных и траекторий принятия решений человеком, инстанцировали контролируемые консультационные беседы и оценили ряд передовых LLM. Результаты выявляют устойчивое противоречие между рациональным качеством решений и поведенческим соответствием: модели, которые хорошо справляются с ранжированием на основе полезности, часто не соответствуют выбору пользователей, тогда как поведенчески согласованные модели могут переобучаться на краткосрочный шум. Набор данных публично доступен на Hugging Face, а кодовая база — на GitHub.

English

Most recommendation benchmarks evaluate how well a model imitates user behavior. In financial advisory, however, observed actions can be noisy or short-sighted under market volatility and may conflict with a user's long-term goals. Treating what users chose as the sole ground truth, therefore, conflates behavioral imitation with decision quality. We introduce Conv-FinRe, a conversational and longitudinal benchmark for stock recommendation that evaluates LLMs beyond behavior matching. Given an onboarding interview, step-wise market context, and advisory dialogues, models must generate rankings over a fixed investment horizon. Crucially, Conv-FinRe provides multi-view references that distinguish descriptive behavior from normative utility grounded in investor-specific risk preferences, enabling diagnosis of whether an LLM follows rational analysis, mimics user noise, or is driven by market momentum. We build the benchmark from real market data and human decision trajectories, instantiate controlled advisory conversations, and evaluate a suite of state-of-the-art LLMs. Results reveal a persistent tension between rational decision quality and behavioral alignment: models that perform well on utility-based ranking often fail to match user choices, whereas behaviorally aligned models can overfit short-term noise. The dataset is publicly released on Hugging Face, and the codebase is available on GitHub.

Conv-FinRe: Диалоговый и лонгитюдный бенчмарк для утилитарно-обоснованных финансовых рекомендаций

Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Аннотация

Support