JaColBERTv2.5: Ottimizzazione dei Recuperatori Multi-Vettoriali per Creare Recuperatori Giapponesi all'Avanguardia con Risorse Limitati
JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources
July 30, 2024
Autori: Benjamin Clavié
cs.AI
Abstract
Il Neural Information Retrieval ha fatto rapidi progressi nelle lingue ad alto livello di risorse, ma l'avanzamento in quelle a risorse più limitate, come il giapponese, è stato ostacolato dalla scarsità di dati, tra altre sfide. Di conseguenza, i modelli multilingue hanno dominato il retrieval in giapponese, nonostante le loro inefficienze computazionali e l'incapacità di catturare le sfumature linguistiche. Sebbene recenti modelli monolingue a vettori multipli come JaColBERT abbiano ridotto questo divario, continuano a rimanere indietro rispetto ai metodi multilingue nelle valutazioni su larga scala. Questo lavoro affronta i metodi di addestramento subottimali dei retriever a vettori multipli in contesti a risorse limitate, con un focus sul giapponese. Valutiamo e miglioriamo sistematicamente aspetti chiave delle impostazioni di inferenza e addestramento di JaColBERT e, più in generale, dei modelli a vettori multipli. Miglioriamo ulteriormente le prestazioni attraverso un nuovo passaggio di fusione dei checkpoint, dimostrando che si tratta di un modo efficace per combinare i vantaggi del fine-tuning con le capacità di generalizzazione del checkpoint originale. Basandoci sulla nostra analisi, introduciamo una nuova ricetta di addestramento, che porta al modello JaColBERTv2.5. JaColBERTv2.5, con soli 110 milioni di parametri e addestrato in meno di 15 ore su 4 GPU A100, supera significativamente tutti i metodi esistenti in tutti i benchmark comuni, raggiungendo un punteggio medio di 0,754, significativamente superiore al precedente miglior risultato di 0,720. Per supportare la ricerca futura, rendiamo pubblicamente disponibili i nostri modelli finali, i checkpoint intermedi e tutti i dati utilizzati.
English
Neural Information Retrieval has advanced rapidly in high-resource languages,
but progress in lower-resource ones such as Japanese has been hindered by data
scarcity, among other challenges. Consequently, multilingual models have
dominated Japanese retrieval, despite their computational inefficiencies and
inability to capture linguistic nuances. While recent multi-vector monolingual
models like JaColBERT have narrowed this gap, they still lag behind
multilingual methods in large-scale evaluations. This work addresses the
suboptimal training methods of multi-vector retrievers in lower-resource
settings, focusing on Japanese. We systematically evaluate and improve key
aspects of the inference and training settings of JaColBERT, and more broadly,
multi-vector models. We further enhance performance through a novel checkpoint
merging step, showcasing it to be an effective way of combining the benefits of
fine-tuning with the generalization capabilities of the original checkpoint.
Building on our analysis, we introduce a novel training recipe, resulting in
the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and
trained in under 15 hours on 4 A100 GPUs, significantly outperforms all
existing methods across all common benchmarks, reaching an average score of
0.754, significantly above the previous best of 0.720. To support future
research, we make our final models, intermediate checkpoints and all data used
publicly available.