Savoir quand fusionner : Étude de la recherche hybride en langue non anglaise dans le domaine juridique

Résumé

La recherche hybride a émergé comme une stratégie efficace pour compenser les limitations des différents paradigmes de correspondance, en particulier dans des contextes hors domaine où des améliorations notables de la qualité de récupération ont été observées. Cependant, les recherches existantes se concentrent principalement sur un ensemble limité de méthodes de récupération, évaluées en paires sur des ensembles de données généraux exclusivement en anglais. Dans ce travail, nous étudions l'efficacité de la recherche hybride à travers une variété de modèles de récupération de premier plan dans le domaine inexploré du droit en langue française, évaluant à la fois des scénarios de zéro-shot et en domaine. Nos résultats révèlent que dans un contexte de zéro-shot, la fusion de différents modèles généraux de domaine améliore de manière constante les performances par rapport à l'utilisation d'un modèle autonome, quel que soit le méthode de fusion. De manière surprenante, lorsque les modèles sont entraînés en domaine, nous constatons que la fusion diminue généralement les performances par rapport à l'utilisation du meilleur système unique, sauf en fusionnant les scores avec des poids soigneusement ajustés. Ces nouvelles perspectives, entre autres, étendent l'applicabilité des résultats antérieurs à un nouveau domaine et une nouvelle langue, et contribuent à une compréhension plus approfondie de la recherche hybride dans les domaines spécialisés non anglophones.

English

Hybrid search has emerged as an effective strategy to offset the limitations of different matching paradigms, especially in out-of-domain contexts where notable improvements in retrieval quality have been observed. However, existing research predominantly focuses on a limited set of retrieval methods, evaluated in pairs on domain-general datasets exclusively in English. In this work, we study the efficacy of hybrid search across a variety of prominent retrieval models within the unexplored field of law in the French language, assessing both zero-shot and in-domain scenarios. Our findings reveal that in a zero-shot context, fusing different domain-general models consistently enhances performance compared to using a standalone model, regardless of the fusion method. Surprisingly, when models are trained in-domain, we find that fusion generally diminishes performance relative to using the best single system, unless fusing scores with carefully tuned weights. These novel insights, among others, expand the applicability of prior findings across a new field and language, and contribute to a deeper understanding of hybrid search in non-English specialized domains.

Savoir quand fusionner : Étude de la recherche hybride en langue non anglaise dans le domaine juridique

Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain

Résumé

Support