Savoir quand fusionner : Étude de la recherche hybride en langue non anglaise dans le domaine juridique
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain
September 2, 2024
Auteurs: Antoine Louis, Gijs van Dijck, Gerasimos Spanakis
cs.AI
Résumé
La recherche hybride a émergé comme une stratégie efficace pour compenser les limitations des différents paradigmes de correspondance, en particulier dans des contextes hors domaine où des améliorations notables de la qualité de récupération ont été observées. Cependant, les recherches existantes se concentrent principalement sur un ensemble limité de méthodes de récupération, évaluées en paires sur des ensembles de données généraux exclusivement en anglais. Dans ce travail, nous étudions l'efficacité de la recherche hybride à travers une variété de modèles de récupération de premier plan dans le domaine inexploré du droit en langue française, évaluant à la fois des scénarios de zéro-shot et en domaine. Nos résultats révèlent que dans un contexte de zéro-shot, la fusion de différents modèles généraux de domaine améliore de manière constante les performances par rapport à l'utilisation d'un modèle autonome, quel que soit le méthode de fusion. De manière surprenante, lorsque les modèles sont entraînés en domaine, nous constatons que la fusion diminue généralement les performances par rapport à l'utilisation du meilleur système unique, sauf en fusionnant les scores avec des poids soigneusement ajustés. Ces nouvelles perspectives, entre autres, étendent l'applicabilité des résultats antérieurs à un nouveau domaine et une nouvelle langue, et contribuent à une compréhension plus approfondie de la recherche hybride dans les domaines spécialisés non anglophones.
English
Hybrid search has emerged as an effective strategy to offset the limitations
of different matching paradigms, especially in out-of-domain contexts where
notable improvements in retrieval quality have been observed. However, existing
research predominantly focuses on a limited set of retrieval methods, evaluated
in pairs on domain-general datasets exclusively in English. In this work, we
study the efficacy of hybrid search across a variety of prominent retrieval
models within the unexplored field of law in the French language, assessing
both zero-shot and in-domain scenarios. Our findings reveal that in a zero-shot
context, fusing different domain-general models consistently enhances
performance compared to using a standalone model, regardless of the fusion
method. Surprisingly, when models are trained in-domain, we find that fusion
generally diminishes performance relative to using the best single system,
unless fusing scores with carefully tuned weights. These novel insights, among
others, expand the applicability of prior findings across a new field and
language, and contribute to a deeper understanding of hybrid search in
non-English specialized domains.Summary
AI-Generated Summary