Saber cuándo fusionar: Investigando la recuperación híbrida en idiomas no ingleses en el ámbito legal.
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain
September 2, 2024
Autores: Antoine Louis, Gijs van Dijck, Gerasimos Spanakis
cs.AI
Resumen
La búsqueda híbrida ha surgido como una estrategia efectiva para contrarrestar las limitaciones de diferentes paradigmas de coincidencia, especialmente en contextos fuera del dominio donde se han observado mejoras notables en la calidad de recuperación. Sin embargo, la investigación existente se centra predominantemente en un conjunto limitado de métodos de recuperación, evaluados en pares en conjuntos de datos de dominio general exclusivamente en inglés. En este trabajo, estudiamos la eficacia de la búsqueda híbrida a través de una variedad de modelos prominentes de recuperación dentro del campo inexplorado del derecho en el idioma francés, evaluando tanto escenarios de cero disparo como de dominio. Nuestros hallazgos revelan que en un contexto de cero disparo, la fusión de diferentes modelos de dominio general mejora consistentemente el rendimiento en comparación con el uso de un modelo independiente, independientemente del método de fusión. Sorprendentemente, cuando los modelos se entrenan en dominio, encontramos que la fusión generalmente disminuye el rendimiento en relación con el uso del mejor sistema único, a menos que se fusionen las puntuaciones con pesos cuidadosamente ajustados. Estas nuevas perspectivas, entre otras, amplían la aplicabilidad de hallazgos anteriores en un nuevo campo y idioma, y contribuyen a una comprensión más profunda de la búsqueda híbrida en dominios especializados no ingleses.
English
Hybrid search has emerged as an effective strategy to offset the limitations
of different matching paradigms, especially in out-of-domain contexts where
notable improvements in retrieval quality have been observed. However, existing
research predominantly focuses on a limited set of retrieval methods, evaluated
in pairs on domain-general datasets exclusively in English. In this work, we
study the efficacy of hybrid search across a variety of prominent retrieval
models within the unexplored field of law in the French language, assessing
both zero-shot and in-domain scenarios. Our findings reveal that in a zero-shot
context, fusing different domain-general models consistently enhances
performance compared to using a standalone model, regardless of the fusion
method. Surprisingly, when models are trained in-domain, we find that fusion
generally diminishes performance relative to using the best single system,
unless fusing scores with carefully tuned weights. These novel insights, among
others, expand the applicability of prior findings across a new field and
language, and contribute to a deeper understanding of hybrid search in
non-English specialized domains.Summary
AI-Generated Summary