Wissen, wann man fusionieren soll: Untersuchung der nicht-englischen hybriden Suche im juristischen Bereich
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain
September 2, 2024
Autoren: Antoine Louis, Gijs van Dijck, Gerasimos Spanakis
cs.AI
Zusammenfassung
Die hybride Suche hat sich als eine effektive Strategie herausgestellt, um die Einschränkungen verschiedener Matching-Paradigmen auszugleichen, insbesondere in außerhalb des Domänenkontexts, wo bemerkenswerte Verbesserungen in der Abrufqualität beobachtet wurden. Allerdings konzentrieren sich bestehende Forschungsarbeiten hauptsächlich auf eine begrenzte Anzahl von Abrufmethoden, die ausschließlich in englischen domänenübergreifenden Datensätzen paarweise evaluiert werden. In dieser Arbeit untersuchen wir die Wirksamkeit der hybriden Suche über eine Vielzahl prominenter Abrufmodelle im unerforschten Bereich des Rechts in französischer Sprache und bewerten sowohl Zero-Shot- als auch In-Domänen-Szenarien. Unsere Ergebnisse zeigen, dass in einem Zero-Shot-Kontext die Verschmelzung verschiedener domänenübergreifender Modelle die Leistung im Vergleich zur Verwendung eines eigenständigen Modells konsistent verbessert, unabhängig von der Verschmelzungsmethode. Überraschenderweise stellen wir fest, dass die Verschmelzung die Leistung im Allgemeinen verringert, wenn die Modelle in der Domäne trainiert werden, im Vergleich zur Verwendung des besten einzelnen Systems, es sei denn, die Scores mit sorgfältig abgestimmten Gewichten verschmolzen werden. Diese neuen Erkenntnisse erweitern die Anwendbarkeit früherer Ergebnisse auf ein neues Feld und eine neue Sprache und tragen zu einem tieferen Verständnis der hybriden Suche in nicht-englischen spezialisierten Domänen bei.
English
Hybrid search has emerged as an effective strategy to offset the limitations
of different matching paradigms, especially in out-of-domain contexts where
notable improvements in retrieval quality have been observed. However, existing
research predominantly focuses on a limited set of retrieval methods, evaluated
in pairs on domain-general datasets exclusively in English. In this work, we
study the efficacy of hybrid search across a variety of prominent retrieval
models within the unexplored field of law in the French language, assessing
both zero-shot and in-domain scenarios. Our findings reveal that in a zero-shot
context, fusing different domain-general models consistently enhances
performance compared to using a standalone model, regardless of the fusion
method. Surprisingly, when models are trained in-domain, we find that fusion
generally diminishes performance relative to using the best single system,
unless fusing scores with carefully tuned weights. These novel insights, among
others, expand the applicability of prior findings across a new field and
language, and contribute to a deeper understanding of hybrid search in
non-English specialized domains.Summary
AI-Generated Summary