Versterk Large Language Models om beter te presteren op domeinspecifieke vraag-antwoordtaken in de industrie
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering
May 19, 2023
Auteurs: Zezhong Wang, Fangkai Yang, Pu Zhao, Lu Wang, Jue Zhang, Mohit Garg, Qingwei Lin, Dongmei Zhang
cs.AI
Samenvatting
Large Language Models (LLM) hebben populariteit verworven en opmerkelijke resultaten behaald in open-domeintaken, maar hun prestaties in echte industriële domeinspecifieke scenario's zijn gemiddeld, omdat er geen specifieke kennis in aanwezig is. Dit probleem heeft brede aandacht getrokken, maar er zijn weinig relevante benchmarks beschikbaar. In dit artikel bieden we een benchmark Question Answering (QA)-dataset genaamd MSQA, die gaat over Microsoft-producten en IT-technische problemen waar klanten tegenaan lopen. Deze dataset bevat industrieel cloud-specifieke QA-kennis, die niet beschikbaar is voor algemene LLM's, waardoor deze zeer geschikt is voor het evalueren van methoden die gericht zijn op het verbeteren van domeinspecifieke capaciteiten van LLM's. Daarnaast stellen we een nieuw modelinteractieparadigma voor dat LLM's kan versterken om betere prestaties te leveren in domeinspecifieke taken waar ze niet bedreven in zijn. Uitgebreide experimenten tonen aan dat de aanpak die ons modelfusiekader volgt, beter presteert dan de veelgebruikte LLM's met retrievemethoden.
English
Large Language Model (LLM) has gained popularity and achieved remarkable
results in open-domain tasks, but its performance in real industrial
domain-specific scenarios is average since there is no specific knowledge in
it. This issue has attracted widespread attention, but there are few relevant
benchmarks available. In this paper, we provide a benchmark Question Answering
(QA) dataset named MSQA, which is about Microsoft products and IT technical
problems encountered by customers. This dataset contains industry
cloud-specific QA knowledge, which is not available for general LLM, so it is
well suited for evaluating methods aimed at improving domain-specific
capabilities of LLM. In addition, we propose a new model interaction paradigm
that can empower LLM to achieve better performance on domain-specific tasks
where it is not proficient. Extensive experiments demonstrate that the approach
following our model fusion framework outperforms the commonly used LLM with
retrieval methods.