JaColBERTv2.5: Optimalisatie van Multi-Vector Retrievers voor het Creëren van State-of-the-Art Japanse Retrievers met Beperkte Middelen
JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources
July 30, 2024
Auteurs: Benjamin Clavié
cs.AI
Samenvatting
Neurale Informatie Retrieval heeft een snelle vooruitgang geboekt in talen met veel bronnen, maar de voortgang in talen met minder bronnen, zoals Japans, is belemmerd door gegevensschaarste en andere uitdagingen. Als gevolg hiervan hebben meertalige modellen de informatie retrieval in het Japans gedomineerd, ondanks hun computationele inefficiëntie en het onvermogen om linguïstische nuances vast te leggen. Hoewel recente multi-vector eentalige modellen zoals JaColBERT deze kloof hebben verkleind, blijven ze achter bij meertalige methoden in grootschalige evaluaties. Dit werk richt zich op de suboptimale trainingsmethoden van multi-vector retrievers in omgevingen met minder bronnen, met een focus op Japans. We evalueren en verbeteren systematisch belangrijke aspecten van de inferentie- en trainingsinstellingen van JaColBERT, en meer in het algemeen, multi-vector modellen. We verbeteren de prestaties verder door een nieuwe checkpoint-samenvoegingsstap, die effectief blijkt te zijn in het combineren van de voordelen van fine-tuning met de generalisatiecapaciteiten van het oorspronkelijke checkpoint. Op basis van onze analyse introduceren we een nieuw trainingsrecept, wat resulteert in het JaColBERTv2.5-model. JaColBERTv2.5, met slechts 110 miljoen parameters en getraind in minder dan 15 uur op 4 A100 GPU's, presteert aanzienlijk beter dan alle bestaande methoden op alle gangbare benchmarks, met een gemiddelde score van 0.754, aanzienlijk hoger dan het vorige beste resultaat van 0.720. Om toekomstig onderzoek te ondersteunen, maken we onze definitieve modellen, tussenliggende checkpoints en alle gebruikte gegevens openbaar beschikbaar.
English
Neural Information Retrieval has advanced rapidly in high-resource languages,
but progress in lower-resource ones such as Japanese has been hindered by data
scarcity, among other challenges. Consequently, multilingual models have
dominated Japanese retrieval, despite their computational inefficiencies and
inability to capture linguistic nuances. While recent multi-vector monolingual
models like JaColBERT have narrowed this gap, they still lag behind
multilingual methods in large-scale evaluations. This work addresses the
suboptimal training methods of multi-vector retrievers in lower-resource
settings, focusing on Japanese. We systematically evaluate and improve key
aspects of the inference and training settings of JaColBERT, and more broadly,
multi-vector models. We further enhance performance through a novel checkpoint
merging step, showcasing it to be an effective way of combining the benefits of
fine-tuning with the generalization capabilities of the original checkpoint.
Building on our analysis, we introduce a novel training recipe, resulting in
the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and
trained in under 15 hours on 4 A100 GPUs, significantly outperforms all
existing methods across all common benchmarks, reaching an average score of
0.754, significantly above the previous best of 0.720. To support future
research, we make our final models, intermediate checkpoints and all data used
publicly available.