JaColBERTv2.5: Optimizando Recuperadores Multi-Vector para Crear Recuperadores Japoneses de Última Generación con Recursos Limitados
JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources
July 30, 2024
Autores: Benjamin Clavié
cs.AI
Resumen
La Recuperación de Información Neural ha avanzado rápidamente en idiomas de alto recurso, pero el progreso en idiomas de recursos limitados como el japonés se ha visto obstaculizado por la escasez de datos, entre otros desafíos. En consecuencia, los modelos multilingües han dominado la recuperación en japonés, a pesar de sus ineficiencias computacionales y su incapacidad para capturar matices lingüísticos. Si bien modelos recientes monolingües multi-vector como JaColBERT han reducido esta brecha, aún están rezagados respecto a los métodos multilingües en evaluaciones a gran escala. Este trabajo aborda los métodos de entrenamiento subóptimos de recuperadores multi-vector en entornos de recursos limitados, centrándose en el japonés. Evaluamos sistemáticamente y mejoramos aspectos clave de la inferencia y la configuración de entrenamiento de JaColBERT, y más ampliamente, de los modelos multi-vector. Mejoramos aún más el rendimiento a través de un paso de fusión de puntos de control novedoso, demostrando que es una forma efectiva de combinar los beneficios del ajuste fino con las capacidades de generalización del punto de control original. Basándonos en nuestro análisis, presentamos una nueva receta de entrenamiento, lo que resulta en el modelo JaColBERTv2.5. JaColBERTv2.5, con solo 110 millones de parámetros y entrenado en menos de 15 horas en 4 GPUs A100, supera significativamente a todos los métodos existentes en todos los benchmarks comunes, alcanzando una puntuación promedio de 0.754, significativamente por encima del mejor anterior de 0.720. Para apoyar la investigación futura, ponemos a disposición del público nuestros modelos finales, puntos de control intermedios y todos los datos utilizados.
English
Neural Information Retrieval has advanced rapidly in high-resource languages,
but progress in lower-resource ones such as Japanese has been hindered by data
scarcity, among other challenges. Consequently, multilingual models have
dominated Japanese retrieval, despite their computational inefficiencies and
inability to capture linguistic nuances. While recent multi-vector monolingual
models like JaColBERT have narrowed this gap, they still lag behind
multilingual methods in large-scale evaluations. This work addresses the
suboptimal training methods of multi-vector retrievers in lower-resource
settings, focusing on Japanese. We systematically evaluate and improve key
aspects of the inference and training settings of JaColBERT, and more broadly,
multi-vector models. We further enhance performance through a novel checkpoint
merging step, showcasing it to be an effective way of combining the benefits of
fine-tuning with the generalization capabilities of the original checkpoint.
Building on our analysis, we introduce a novel training recipe, resulting in
the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and
trained in under 15 hours on 4 A100 GPUs, significantly outperforms all
existing methods across all common benchmarks, reaching an average score of
0.754, significantly above the previous best of 0.720. To support future
research, we make our final models, intermediate checkpoints and all data used
publicly available.Summary
AI-Generated Summary