Wissen, wann man fusionieren soll: Untersuchung der nicht-englischen hybriden Suche im juristischen Bereich

Zusammenfassung

Die hybride Suche hat sich als eine effektive Strategie herausgestellt, um die Einschränkungen verschiedener Matching-Paradigmen auszugleichen, insbesondere in außerhalb des Domänenkontexts, wo bemerkenswerte Verbesserungen in der Abrufqualität beobachtet wurden. Allerdings konzentrieren sich bestehende Forschungsarbeiten hauptsächlich auf eine begrenzte Anzahl von Abrufmethoden, die ausschließlich in englischen domänenübergreifenden Datensätzen paarweise evaluiert werden. In dieser Arbeit untersuchen wir die Wirksamkeit der hybriden Suche über eine Vielzahl prominenter Abrufmodelle im unerforschten Bereich des Rechts in französischer Sprache und bewerten sowohl Zero-Shot- als auch In-Domänen-Szenarien. Unsere Ergebnisse zeigen, dass in einem Zero-Shot-Kontext die Verschmelzung verschiedener domänenübergreifender Modelle die Leistung im Vergleich zur Verwendung eines eigenständigen Modells konsistent verbessert, unabhängig von der Verschmelzungsmethode. Überraschenderweise stellen wir fest, dass die Verschmelzung die Leistung im Allgemeinen verringert, wenn die Modelle in der Domäne trainiert werden, im Vergleich zur Verwendung des besten einzelnen Systems, es sei denn, die Scores mit sorgfältig abgestimmten Gewichten verschmolzen werden. Diese neuen Erkenntnisse erweitern die Anwendbarkeit früherer Ergebnisse auf ein neues Feld und eine neue Sprache und tragen zu einem tieferen Verständnis der hybriden Suche in nicht-englischen spezialisierten Domänen bei.

English

Hybrid search has emerged as an effective strategy to offset the limitations of different matching paradigms, especially in out-of-domain contexts where notable improvements in retrieval quality have been observed. However, existing research predominantly focuses on a limited set of retrieval methods, evaluated in pairs on domain-general datasets exclusively in English. In this work, we study the efficacy of hybrid search across a variety of prominent retrieval models within the unexplored field of law in the French language, assessing both zero-shot and in-domain scenarios. Our findings reveal that in a zero-shot context, fusing different domain-general models consistently enhances performance compared to using a standalone model, regardless of the fusion method. Surprisingly, when models are trained in-domain, we find that fusion generally diminishes performance relative to using the best single system, unless fusing scores with carefully tuned weights. These novel insights, among others, expand the applicability of prior findings across a new field and language, and contribute to a deeper understanding of hybrid search in non-English specialized domains.

Wissen, wann man fusionieren soll: Untersuchung der nicht-englischen hybriden Suche im juristischen Bereich

Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain

Zusammenfassung

Support