Saber Quando Fundir: Investigando a Recuperação Híbrida em Não Inglês no Domínio Legal
Know When to Fuse: Investigating Non-English Hybrid Retrieval in the Legal Domain
September 2, 2024
Autores: Antoine Louis, Gijs van Dijck, Gerasimos Spanakis
cs.AI
Resumo
A busca híbrida surgiu como uma estratégia eficaz para compensar as limitações de diferentes paradigmas de correspondência, especialmente em contextos fora do domínio, onde melhorias significativas na qualidade de recuperação foram observadas. No entanto, as pesquisas existentes predominantemente se concentram em um conjunto limitado de métodos de recuperação, avaliados em pares em conjuntos de dados de domínio geral exclusivamente em inglês. Neste trabalho, estudamos a eficácia da busca híbrida em uma variedade de modelos de recuperação proeminentes no campo inexplorado do direito em língua francesa, avaliando cenários de zero-shot e em domínio. Nossas descobertas revelam que em um contexto de zero-shot, a fusão de diferentes modelos de domínio geral melhora consistentemente o desempenho em comparação com o uso de um modelo independente, independentemente do método de fusão. Surpreendentemente, quando os modelos são treinados em domínio, descobrimos que a fusão geralmente diminui o desempenho em relação ao uso do melhor sistema único, a menos que os escores sejam fundidos com pesos cuidadosamente ajustados. Essas novas percepções, entre outras, ampliam a aplicabilidade de descobertas anteriores em um novo campo e idioma, e contribuem para uma compreensão mais profunda da busca híbrida em domínios especializados não em inglês.
English
Hybrid search has emerged as an effective strategy to offset the limitations
of different matching paradigms, especially in out-of-domain contexts where
notable improvements in retrieval quality have been observed. However, existing
research predominantly focuses on a limited set of retrieval methods, evaluated
in pairs on domain-general datasets exclusively in English. In this work, we
study the efficacy of hybrid search across a variety of prominent retrieval
models within the unexplored field of law in the French language, assessing
both zero-shot and in-domain scenarios. Our findings reveal that in a zero-shot
context, fusing different domain-general models consistently enhances
performance compared to using a standalone model, regardless of the fusion
method. Surprisingly, when models are trained in-domain, we find that fusion
generally diminishes performance relative to using the best single system,
unless fusing scores with carefully tuned weights. These novel insights, among
others, expand the applicability of prior findings across a new field and
language, and contribute to a deeper understanding of hybrid search in
non-English specialized domains.Summary
AI-Generated Summary