Ermöglichen Sie großen Sprachmodellen, bessere Leistungen bei domänenspezifischen Frage-Antwort-Systemen in der Industrie zu erbringen.
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering
May 19, 2023
Autoren: Zezhong Wang, Fangkai Yang, Pu Zhao, Lu Wang, Jue Zhang, Mohit Garg, Qingwei Lin, Dongmei Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben an Popularität gewonnen und bemerkenswerte Ergebnisse in offenen Domänenaufgaben erzielt, doch ihre Leistung in realen, industriellen domänenspezifischen Szenarien ist durchschnittlich, da ihnen spezifisches Wissen fehlt. Dieses Problem hat breite Aufmerksamkeit erregt, aber es gibt nur wenige relevante Benchmarks. In diesem Artikel stellen wir einen Benchmark-Datensatz für Frage-Antwort-Systeme (QA) namens MSQA vor, der sich auf Microsoft-Produkte und IT-technische Probleme bezieht, mit denen Kunden konfrontiert sind. Dieser Datensatz enthält domänenspezifisches QA-Wissen aus der Industrie-Cloud, das für allgemeine LLMs nicht verfügbar ist, und eignet sich daher gut zur Bewertung von Methoden, die darauf abzielen, die domänenspezifischen Fähigkeiten von LLMs zu verbessern. Darüber hinaus schlagen wir ein neues Modellinteraktionsparadigma vor, das LLMs befähigen kann, bessere Leistungen in domänenspezifischen Aufgaben zu erzielen, in denen sie nicht versiert sind. Umfangreiche Experimente zeigen, dass der Ansatz, der unserem Modellfusionsframework folgt, die gängigen LLMs mit Retrieval-Methoden übertrifft.
English
Large Language Model (LLM) has gained popularity and achieved remarkable
results in open-domain tasks, but its performance in real industrial
domain-specific scenarios is average since there is no specific knowledge in
it. This issue has attracted widespread attention, but there are few relevant
benchmarks available. In this paper, we provide a benchmark Question Answering
(QA) dataset named MSQA, which is about Microsoft products and IT technical
problems encountered by customers. This dataset contains industry
cloud-specific QA knowledge, which is not available for general LLM, so it is
well suited for evaluating methods aimed at improving domain-specific
capabilities of LLM. In addition, we propose a new model interaction paradigm
that can empower LLM to achieve better performance on domain-specific tasks
where it is not proficient. Extensive experiments demonstrate that the approach
following our model fusion framework outperforms the commonly used LLM with
retrieval methods.