Улучшение производительности больших языковых моделей в решении задач вопросно-ответных систем для промышленных доменов
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering
May 19, 2023
Авторы: Zezhong Wang, Fangkai Yang, Pu Zhao, Lu Wang, Jue Zhang, Mohit Garg, Qingwei Lin, Dongmei Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) получили широкую популярность и достигли впечатляющих результатов в задачах открытой области, однако их производительность в реальных промышленных сценариях, специфичных для конкретных доменов, остается средней, поскольку в них отсутствует специализированная информация. Эта проблема привлекла широкое внимание, но доступных соответствующих бенчмарков крайне мало. В данной статье мы представляем бенчмарк для задачи вопросов и ответов (QA) под названием MSQA, который посвящен продуктам Microsoft и техническим проблемам, с которыми сталкиваются клиенты. Этот набор данных содержит знания, специфичные для облачных технологий в промышленности, которые недоступны для общих LLM, что делает его идеальным для оценки методов, направленных на улучшение доменно-специфических возможностей LLM. Кроме того, мы предлагаем новую парадигму взаимодействия моделей, которая позволяет LLM достигать лучших результатов в задачах, специфичных для доменов, в которых она не является экспертом. Многочисленные эксперименты демонстрируют, что подход, основанный на нашей модели слияния, превосходит традиционные методы LLM с использованием поиска.
English
Large Language Model (LLM) has gained popularity and achieved remarkable
results in open-domain tasks, but its performance in real industrial
domain-specific scenarios is average since there is no specific knowledge in
it. This issue has attracted widespread attention, but there are few relevant
benchmarks available. In this paper, we provide a benchmark Question Answering
(QA) dataset named MSQA, which is about Microsoft products and IT technical
problems encountered by customers. This dataset contains industry
cloud-specific QA knowledge, which is not available for general LLM, so it is
well suited for evaluating methods aimed at improving domain-specific
capabilities of LLM. In addition, we propose a new model interaction paradigm
that can empower LLM to achieve better performance on domain-specific tasks
where it is not proficient. Extensive experiments demonstrate that the approach
following our model fusion framework outperforms the commonly used LLM with
retrieval methods.