JaColBERTv2.5: Otimizando Recuperadores Multi-Vetor para Criar Recuperadores Japoneses de Última Geração com Recursos Limitados
JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources
July 30, 2024
Autores: Benjamin Clavié
cs.AI
Resumo
A recuperação de informações neurais avançou rapidamente em idiomas de alto recurso, mas o progresso em idiomas de baixo recurso, como o japonês, foi prejudicado pela escassez de dados, entre outros desafios. Consequentemente, modelos multilíngues têm dominado a recuperação em japonês, apesar de suas ineficiências computacionais e incapacidade de capturar nuances linguísticas. Embora modelos monolíngues recentes de múltiplos vetores, como o JaColBERT, tenham reduzido essa lacuna, ainda estão atrás dos métodos multilíngues em avaliações em larga escala. Este trabalho aborda os métodos de treinamento subótimos dos recuperadores de múltiplos vetores em ambientes de baixo recurso, com foco no japonês. Avaliamos e melhoramos sistematicamente aspectos-chave das configurações de inferência e treinamento do JaColBERT e, de forma mais ampla, dos modelos de múltiplos vetores. Ainda melhoramos o desempenho por meio de uma etapa de mesclagem de pontos de verificação inovadora, demonstrando ser uma maneira eficaz de combinar os benefícios do ajuste fino com as capacidades de generalização do ponto de verificação original. Com base em nossa análise, introduzimos uma nova receita de treinamento, resultando no modelo JaColBERTv2.5. O JaColBERTv2.5, com apenas 110 milhões de parâmetros e treinado em menos de 15 horas em 4 GPUs A100, supera significativamente todos os métodos existentes em todos os benchmarks comuns, alcançando uma pontuação média de 0,754, significativamente acima do melhor anterior de 0,720. Para apoiar pesquisas futuras, disponibilizamos publicamente nossos modelos finais, pontos de verificação intermediários e todos os dados utilizados.
English
Neural Information Retrieval has advanced rapidly in high-resource languages,
but progress in lower-resource ones such as Japanese has been hindered by data
scarcity, among other challenges. Consequently, multilingual models have
dominated Japanese retrieval, despite their computational inefficiencies and
inability to capture linguistic nuances. While recent multi-vector monolingual
models like JaColBERT have narrowed this gap, they still lag behind
multilingual methods in large-scale evaluations. This work addresses the
suboptimal training methods of multi-vector retrievers in lower-resource
settings, focusing on Japanese. We systematically evaluate and improve key
aspects of the inference and training settings of JaColBERT, and more broadly,
multi-vector models. We further enhance performance through a novel checkpoint
merging step, showcasing it to be an effective way of combining the benefits of
fine-tuning with the generalization capabilities of the original checkpoint.
Building on our analysis, we introduce a novel training recipe, resulting in
the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and
trained in under 15 hours on 4 A100 GPUs, significantly outperforms all
existing methods across all common benchmarks, reaching an average score of
0.754, significantly above the previous best of 0.720. To support future
research, we make our final models, intermediate checkpoints and all data used
publicly available.Summary
AI-Generated Summary