JaColBERTv2.5: Optimierung von Multi-Vektor-Retrievers zur Erstellung von japanischen Retrievers auf dem neuesten Stand der Technik mit begrenzten Ressourcen

papers.abstract

Die neuronale Informationsabfrage hat sich in hochresourcen Sprachen schnell weiterentwickelt, aber der Fortschritt in niedrig-resourcen Sprachen wie Japanisch wurde durch Datenknappheit und andere Herausforderungen behindert. Folglich dominieren mehrsprachige Modelle die japanische Abfrage, trotz ihrer Rechenineffizienzen und der Unfähigkeit, sprachliche Feinheiten zu erfassen. Während neuere mehrvektorische monolinguale Modelle wie JaColBERT diese Kluft verkleinert haben, hinken sie immer noch mehrsprachigen Methoden in großangelegten Evaluierungen hinterher. Diese Arbeit befasst sich mit den suboptimalen Trainingsmethoden von mehrvektorischen Abfragesystemen in niedrig-resourcen Umgebungen, mit einem Fokus auf Japanisch. Wir evaluieren systematisch und verbessern Schlüsselelemente der Inferenz- und Trainingsumgebungen von JaColBERT und, allgemeiner, mehrvektorischen Modellen. Des Weiteren verbessern wir die Leistung durch einen neuartigen Schritt zur Zusammenführung von Prüfpunkten, wobei gezeigt wird, dass dies eine effektive Möglichkeit ist, die Vorteile des Feintunings mit den Verallgemeinerungsfähigkeiten des ursprünglichen Prüfpunkts zu kombinieren. Basierend auf unserer Analyse stellen wir ein neues Trainingsrezept vor, das zum JaColBERTv2.5 Modell führt. JaColBERTv2.5, mit nur 110 Millionen Parametern und in weniger als 15 Stunden auf 4 A100 GPUs trainiert, übertrifft signifikant alle bestehenden Methoden in allen gängigen Benchmarks und erreicht einen durchschnittlichen Score von 0.754, deutlich über dem bisherigen Bestwert von 0.720. Um zukünftige Forschung zu unterstützen, stellen wir unsere finalen Modelle, Zwischenprüfpunkte und alle verwendeten Daten öffentlich zur Verfügung.

English

Neural Information Retrieval has advanced rapidly in high-resource languages, but progress in lower-resource ones such as Japanese has been hindered by data scarcity, among other challenges. Consequently, multilingual models have dominated Japanese retrieval, despite their computational inefficiencies and inability to capture linguistic nuances. While recent multi-vector monolingual models like JaColBERT have narrowed this gap, they still lag behind multilingual methods in large-scale evaluations. This work addresses the suboptimal training methods of multi-vector retrievers in lower-resource settings, focusing on Japanese. We systematically evaluate and improve key aspects of the inference and training settings of JaColBERT, and more broadly, multi-vector models. We further enhance performance through a novel checkpoint merging step, showcasing it to be an effective way of combining the benefits of fine-tuning with the generalization capabilities of the original checkpoint. Building on our analysis, we introduce a novel training recipe, resulting in the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and trained in under 15 hours on 4 A100 GPUs, significantly outperforms all existing methods across all common benchmarks, reaching an average score of 0.754, significantly above the previous best of 0.720. To support future research, we make our final models, intermediate checkpoints and all data used publicly available.

JaColBERTv2.5: Optimierung von Multi-Vektor-Retrievers zur Erstellung von japanischen Retrievers auf dem neuesten Stand der Technik mit begrenzten Ressourcen

JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources

papers.abstract

Support