Saber cuándo fusionar: Investigando la recuperación híbrida en idiomas no ingleses en el ámbito legal.

Resumen

La búsqueda híbrida ha surgido como una estrategia efectiva para contrarrestar las limitaciones de diferentes paradigmas de coincidencia, especialmente en contextos fuera del dominio donde se han observado mejoras notables en la calidad de recuperación. Sin embargo, la investigación existente se centra predominantemente en un conjunto limitado de métodos de recuperación, evaluados en pares en conjuntos de datos de dominio general exclusivamente en inglés. En este trabajo, estudiamos la eficacia de la búsqueda híbrida a través de una variedad de modelos prominentes de recuperación dentro del campo inexplorado del derecho en el idioma francés, evaluando tanto escenarios de cero disparo como de dominio. Nuestros hallazgos revelan que en un contexto de cero disparo, la fusión de diferentes modelos de dominio general mejora consistentemente el rendimiento en comparación con el uso de un modelo independiente, independientemente del método de fusión. Sorprendentemente, cuando los modelos se entrenan en dominio, encontramos que la fusión generalmente disminuye el rendimiento en relación con el uso del mejor sistema único, a menos que se fusionen las puntuaciones con pesos cuidadosamente ajustados. Estas nuevas perspectivas, entre otras, amplían la aplicabilidad de hallazgos anteriores en un nuevo campo y idioma, y contribuyen a una comprensión más profunda de la búsqueda híbrida en dominios especializados no ingleses.

English

Hybrid search has emerged as an effective strategy to offset the limitations of different matching paradigms, especially in out-of-domain contexts where notable improvements in retrieval quality have been observed. However, existing research predominantly focuses on a limited set of retrieval methods, evaluated in pairs on domain-general datasets exclusively in English. In this work, we study the efficacy of hybrid search across a variety of prominent retrieval models within the unexplored field of law in the French language, assessing both zero-shot and in-domain scenarios. Our findings reveal that in a zero-shot context, fusing different domain-general models consistently enhances performance compared to using a standalone model, regardless of the fusion method. Surprisingly, when models are trained in-domain, we find that fusion generally diminishes performance relative to using the best single system, unless fusing scores with carefully tuned weights. These novel insights, among others, expand the applicability of prior findings across a new field and language, and contribute to a deeper understanding of hybrid search in non-English specialized domains.

Saber cuándo fusionar: Investigando la recuperación híbrida en idiomas no ingleses en el ámbito legal.

Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain

Resumen

Support