JaColBERTv2.5 : Optimisation des récupérateurs multi-vecteurs pour créer des systèmes de recherche japonais de pointe avec des ressources limitées
JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources
July 30, 2024
Auteurs: Benjamin Clavié
cs.AI
Résumé
La recherche d'information neuronale a progressé rapidement dans les langues riches en ressources, mais les avancées dans les langues moins dotées comme le japonais ont été freinées par la pénurie de données, entre autres défis. Par conséquent, les modèles multilingues ont dominé la recherche en japonais, malgré leurs inefficacités computationnelles et leur incapacité à capturer les nuances linguistiques. Bien que des modèles monolingues à vecteurs multiples récents comme JaColBERT aient réduit cet écart, ils restent à la traîne par rapport aux méthodes multilingues dans les évaluations à grande échelle. Ce travail aborde les méthodes d'entraînement sous-optimales des systèmes de recherche à vecteurs multiples dans des contextes à faibles ressources, en se concentrant sur le japonais. Nous évaluons et améliorons systématiquement les aspects clés des configurations d'inférence et d'entraînement de JaColBERT, et plus largement, des modèles à vecteurs multiples. Nous améliorons encore les performances grâce à une nouvelle étape de fusion de points de contrôle, démontrant son efficacité pour combiner les avantages du réglage fin avec les capacités de généralisation du point de contrôle original. En nous appuyant sur notre analyse, nous introduisons une nouvelle recette d'entraînement, aboutissant au modèle JaColBERTv2.5. JaColBERTv2.5, avec seulement 110 millions de paramètres et entraîné en moins de 15 heures sur 4 GPU A100, surpasse significativement toutes les méthodes existantes sur tous les benchmarks courants, atteignant un score moyen de 0,754, bien au-dessus du précédent meilleur score de 0,720. Pour soutenir les recherches futures, nous rendons publics nos modèles finaux, les points de contrôle intermédiaires et toutes les données utilisées.
English
Neural Information Retrieval has advanced rapidly in high-resource languages,
but progress in lower-resource ones such as Japanese has been hindered by data
scarcity, among other challenges. Consequently, multilingual models have
dominated Japanese retrieval, despite their computational inefficiencies and
inability to capture linguistic nuances. While recent multi-vector monolingual
models like JaColBERT have narrowed this gap, they still lag behind
multilingual methods in large-scale evaluations. This work addresses the
suboptimal training methods of multi-vector retrievers in lower-resource
settings, focusing on Japanese. We systematically evaluate and improve key
aspects of the inference and training settings of JaColBERT, and more broadly,
multi-vector models. We further enhance performance through a novel checkpoint
merging step, showcasing it to be an effective way of combining the benefits of
fine-tuning with the generalization capabilities of the original checkpoint.
Building on our analysis, we introduce a novel training recipe, resulting in
the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and
trained in under 15 hours on 4 A100 GPUs, significantly outperforms all
existing methods across all common benchmarks, reaching an average score of
0.754, significantly above the previous best of 0.720. To support future
research, we make our final models, intermediate checkpoints and all data used
publicly available.Summary
AI-Generated Summary