UCFE: Пользовательский финансовый экспертный бенчмарк для крупных языковых моделейUCFE: A User-Centric Financial Expertise Benchmark for Large Language
Models
Данная статья представляет UCFE: бенчмарк финансовой экспертизы, ориентированный на пользователя, инновационную структуру, разработанную для оценки способности крупных языковых моделей (LLM) решать сложные финансовые задачи реального мира. Бенчмарк UCFE применяет гибридный подход, который объединяет экспертные оценки людей с динамическими, задачно-специфичными взаимодействиями для имитации сложностей изменяющихся финансовых сценариев. Во-первых, мы провели пользовательское исследование с участием 804 участников, собрав их обратную связь по финансовым задачам. Во-вторых, на основе этой обратной связи мы создали наш набор данных, охватывающий широкий спектр намерений и взаимодействий пользователей. Этот набор данных служит основой для оценки 12 услуг LLM с использованием методологии LLM-как-судья. Наши результаты показывают значительное соответствие между оценками бенчмарка и предпочтениями людей, с коэффициентом корреляции Пирсона 0,78, подтверждая эффективность набора данных UCFE и нашего подхода к оценке. Бенчмарк UCFE не только раскрывает потенциал LLM в финансовом секторе, но также предоставляет надежную структуру для оценки их производительности и удовлетворенности пользователей. Набор данных и код оценки бенчмарка доступны.