Ermöglichen Sie großen Sprachmodellen, bessere Leistungen bei domänenspezifischen Frage-Antwort-Systemen in der Industrie zu erbringen.

Zusammenfassung

Große Sprachmodelle (LLMs) haben an Popularität gewonnen und bemerkenswerte Ergebnisse in offenen Domänenaufgaben erzielt, doch ihre Leistung in realen, industriellen domänenspezifischen Szenarien ist durchschnittlich, da ihnen spezifisches Wissen fehlt. Dieses Problem hat breite Aufmerksamkeit erregt, aber es gibt nur wenige relevante Benchmarks. In diesem Artikel stellen wir einen Benchmark-Datensatz für Frage-Antwort-Systeme (QA) namens MSQA vor, der sich auf Microsoft-Produkte und IT-technische Probleme bezieht, mit denen Kunden konfrontiert sind. Dieser Datensatz enthält domänenspezifisches QA-Wissen aus der Industrie-Cloud, das für allgemeine LLMs nicht verfügbar ist, und eignet sich daher gut zur Bewertung von Methoden, die darauf abzielen, die domänenspezifischen Fähigkeiten von LLMs zu verbessern. Darüber hinaus schlagen wir ein neues Modellinteraktionsparadigma vor, das LLMs befähigen kann, bessere Leistungen in domänenspezifischen Aufgaben zu erzielen, in denen sie nicht versiert sind. Umfangreiche Experimente zeigen, dass der Ansatz, der unserem Modellfusionsframework folgt, die gängigen LLMs mit Retrieval-Methoden übertrifft.

English

Large Language Model (LLM) has gained popularity and achieved remarkable results in open-domain tasks, but its performance in real industrial domain-specific scenarios is average since there is no specific knowledge in it. This issue has attracted widespread attention, but there are few relevant benchmarks available. In this paper, we provide a benchmark Question Answering (QA) dataset named MSQA, which is about Microsoft products and IT technical problems encountered by customers. This dataset contains industry cloud-specific QA knowledge, which is not available for general LLM, so it is well suited for evaluating methods aimed at improving domain-specific capabilities of LLM. In addition, we propose a new model interaction paradigm that can empower LLM to achieve better performance on domain-specific tasks where it is not proficient. Extensive experiments demonstrate that the approach following our model fusion framework outperforms the commonly used LLM with retrieval methods.

Ermöglichen Sie großen Sprachmodellen, bessere Leistungen bei domänenspezifischen Frage-Antwort-Systemen in der Industrie zu erbringen.

Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering

Zusammenfassung

Support