JaColBERTv2.5 : Optimisation des récupérateurs multi-vecteurs pour créer des systèmes de recherche japonais de pointe avec des ressources limitées

papers.abstract

La recherche d'information neuronale a progressé rapidement dans les langues riches en ressources, mais les avancées dans les langues moins dotées comme le japonais ont été freinées par la pénurie de données, entre autres défis. Par conséquent, les modèles multilingues ont dominé la recherche en japonais, malgré leurs inefficacités computationnelles et leur incapacité à capturer les nuances linguistiques. Bien que des modèles monolingues à vecteurs multiples récents comme JaColBERT aient réduit cet écart, ils restent à la traîne par rapport aux méthodes multilingues dans les évaluations à grande échelle. Ce travail aborde les méthodes d'entraînement sous-optimales des systèmes de recherche à vecteurs multiples dans des contextes à faibles ressources, en se concentrant sur le japonais. Nous évaluons et améliorons systématiquement les aspects clés des configurations d'inférence et d'entraînement de JaColBERT, et plus largement, des modèles à vecteurs multiples. Nous améliorons encore les performances grâce à une nouvelle étape de fusion de points de contrôle, démontrant son efficacité pour combiner les avantages du réglage fin avec les capacités de généralisation du point de contrôle original. En nous appuyant sur notre analyse, nous introduisons une nouvelle recette d'entraînement, aboutissant au modèle JaColBERTv2.5. JaColBERTv2.5, avec seulement 110 millions de paramètres et entraîné en moins de 15 heures sur 4 GPU A100, surpasse significativement toutes les méthodes existantes sur tous les benchmarks courants, atteignant un score moyen de 0,754, bien au-dessus du précédent meilleur score de 0,720. Pour soutenir les recherches futures, nous rendons publics nos modèles finaux, les points de contrôle intermédiaires et toutes les données utilisées.

English

Neural Information Retrieval has advanced rapidly in high-resource languages, but progress in lower-resource ones such as Japanese has been hindered by data scarcity, among other challenges. Consequently, multilingual models have dominated Japanese retrieval, despite their computational inefficiencies and inability to capture linguistic nuances. While recent multi-vector monolingual models like JaColBERT have narrowed this gap, they still lag behind multilingual methods in large-scale evaluations. This work addresses the suboptimal training methods of multi-vector retrievers in lower-resource settings, focusing on Japanese. We systematically evaluate and improve key aspects of the inference and training settings of JaColBERT, and more broadly, multi-vector models. We further enhance performance through a novel checkpoint merging step, showcasing it to be an effective way of combining the benefits of fine-tuning with the generalization capabilities of the original checkpoint. Building on our analysis, we introduce a novel training recipe, resulting in the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and trained in under 15 hours on 4 A100 GPUs, significantly outperforms all existing methods across all common benchmarks, reaching an average score of 0.754, significantly above the previous best of 0.720. To support future research, we make our final models, intermediate checkpoints and all data used publicly available.

JaColBERTv2.5 : Optimisation des récupérateurs multi-vecteurs pour créer des systèmes de recherche japonais de pointe avec des ressources limitées

JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources

papers.abstract

Support