JaColBERTv2.5: Otimizando Recuperadores Multi-Vetor para Criar Recuperadores Japoneses de Última Geração com Recursos Limitados

Resumo

A recuperação de informações neurais avançou rapidamente em idiomas de alto recurso, mas o progresso em idiomas de baixo recurso, como o japonês, foi prejudicado pela escassez de dados, entre outros desafios. Consequentemente, modelos multilíngues têm dominado a recuperação em japonês, apesar de suas ineficiências computacionais e incapacidade de capturar nuances linguísticas. Embora modelos monolíngues recentes de múltiplos vetores, como o JaColBERT, tenham reduzido essa lacuna, ainda estão atrás dos métodos multilíngues em avaliações em larga escala. Este trabalho aborda os métodos de treinamento subótimos dos recuperadores de múltiplos vetores em ambientes de baixo recurso, com foco no japonês. Avaliamos e melhoramos sistematicamente aspectos-chave das configurações de inferência e treinamento do JaColBERT e, de forma mais ampla, dos modelos de múltiplos vetores. Ainda melhoramos o desempenho por meio de uma etapa de mesclagem de pontos de verificação inovadora, demonstrando ser uma maneira eficaz de combinar os benefícios do ajuste fino com as capacidades de generalização do ponto de verificação original. Com base em nossa análise, introduzimos uma nova receita de treinamento, resultando no modelo JaColBERTv2.5. O JaColBERTv2.5, com apenas 110 milhões de parâmetros e treinado em menos de 15 horas em 4 GPUs A100, supera significativamente todos os métodos existentes em todos os benchmarks comuns, alcançando uma pontuação média de 0,754, significativamente acima do melhor anterior de 0,720. Para apoiar pesquisas futuras, disponibilizamos publicamente nossos modelos finais, pontos de verificação intermediários e todos os dados utilizados.

English

Neural Information Retrieval has advanced rapidly in high-resource languages, but progress in lower-resource ones such as Japanese has been hindered by data scarcity, among other challenges. Consequently, multilingual models have dominated Japanese retrieval, despite their computational inefficiencies and inability to capture linguistic nuances. While recent multi-vector monolingual models like JaColBERT have narrowed this gap, they still lag behind multilingual methods in large-scale evaluations. This work addresses the suboptimal training methods of multi-vector retrievers in lower-resource settings, focusing on Japanese. We systematically evaluate and improve key aspects of the inference and training settings of JaColBERT, and more broadly, multi-vector models. We further enhance performance through a novel checkpoint merging step, showcasing it to be an effective way of combining the benefits of fine-tuning with the generalization capabilities of the original checkpoint. Building on our analysis, we introduce a novel training recipe, resulting in the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and trained in under 15 hours on 4 A100 GPUs, significantly outperforms all existing methods across all common benchmarks, reaching an average score of 0.754, significantly above the previous best of 0.720. To support future research, we make our final models, intermediate checkpoints and all data used publicly available.

JaColBERTv2.5: Otimizando Recuperadores Multi-Vetor para Criar Recuperadores Japoneses de Última Geração com Recursos Limitados

JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources

Resumo

Summary

Support

Support