JaColBERTv2.5: Optimierung von Multi-Vektor-Retrievers zur Erstellung von japanischen Retrievers auf dem neuesten Stand der Technik mit begrenzten Ressourcen
JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources
July 30, 2024
Autoren: Benjamin Clavié
cs.AI
Zusammenfassung
Die neuronale Informationsabfrage hat sich in hochresourcen Sprachen schnell weiterentwickelt, aber der Fortschritt in niedrig-resourcen Sprachen wie Japanisch wurde durch Datenknappheit und andere Herausforderungen behindert. Folglich dominieren mehrsprachige Modelle die japanische Abfrage, trotz ihrer Rechenineffizienzen und der Unfähigkeit, sprachliche Feinheiten zu erfassen. Während neuere mehrvektorische monolinguale Modelle wie JaColBERT diese Kluft verkleinert haben, hinken sie immer noch mehrsprachigen Methoden in großangelegten Evaluierungen hinterher. Diese Arbeit befasst sich mit den suboptimalen Trainingsmethoden von mehrvektorischen Abfragesystemen in niedrig-resourcen Umgebungen, mit einem Fokus auf Japanisch. Wir evaluieren systematisch und verbessern Schlüsselelemente der Inferenz- und Trainingsumgebungen von JaColBERT und, allgemeiner, mehrvektorischen Modellen. Des Weiteren verbessern wir die Leistung durch einen neuartigen Schritt zur Zusammenführung von Prüfpunkten, wobei gezeigt wird, dass dies eine effektive Möglichkeit ist, die Vorteile des Feintunings mit den Verallgemeinerungsfähigkeiten des ursprünglichen Prüfpunkts zu kombinieren. Basierend auf unserer Analyse stellen wir ein neues Trainingsrezept vor, das zum JaColBERTv2.5 Modell führt. JaColBERTv2.5, mit nur 110 Millionen Parametern und in weniger als 15 Stunden auf 4 A100 GPUs trainiert, übertrifft signifikant alle bestehenden Methoden in allen gängigen Benchmarks und erreicht einen durchschnittlichen Score von 0.754, deutlich über dem bisherigen Bestwert von 0.720. Um zukünftige Forschung zu unterstützen, stellen wir unsere finalen Modelle, Zwischenprüfpunkte und alle verwendeten Daten öffentlich zur Verfügung.
English
Neural Information Retrieval has advanced rapidly in high-resource languages,
but progress in lower-resource ones such as Japanese has been hindered by data
scarcity, among other challenges. Consequently, multilingual models have
dominated Japanese retrieval, despite their computational inefficiencies and
inability to capture linguistic nuances. While recent multi-vector monolingual
models like JaColBERT have narrowed this gap, they still lag behind
multilingual methods in large-scale evaluations. This work addresses the
suboptimal training methods of multi-vector retrievers in lower-resource
settings, focusing on Japanese. We systematically evaluate and improve key
aspects of the inference and training settings of JaColBERT, and more broadly,
multi-vector models. We further enhance performance through a novel checkpoint
merging step, showcasing it to be an effective way of combining the benefits of
fine-tuning with the generalization capabilities of the original checkpoint.
Building on our analysis, we introduce a novel training recipe, resulting in
the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and
trained in under 15 hours on 4 A100 GPUs, significantly outperforms all
existing methods across all common benchmarks, reaching an average score of
0.754, significantly above the previous best of 0.720. To support future
research, we make our final models, intermediate checkpoints and all data used
publicly available.Summary
AI-Generated Summary