JaColBERTv2.5: Оптимизация многовекторных извлекателей для создания Современных японских извлекателей с ограниченными ресурсами
JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources
July 30, 2024
Авторы: Benjamin Clavié
cs.AI
Аннотация
Извлечение информации с использованием нейронных сетей быстро развивается на языках с высокими ресурсами, но прогресс на языках с низкими ресурсами, таких как японский, затрудняется из-за недостатка данных, среди прочих проблем. В результате мультиязычные модели доминируют в извлечении информации на японском языке, несмотря на их вычислительные неэффективности и неспособность улавливать лингвистические тонкости. Недавние много-векторные монолингвальные модели, такие как JaColBERT, сузили эту разницу, однако они все еще отстают от мультиязычных методов в крупномасштабных оценках. В данной работе рассматриваются неоптимальные методы обучения много-векторных извлекателей в условиях низких ресурсов, с акцентом на японском языке. Мы систематически оцениваем и улучшаем ключевые аспекты вывода и настроек обучения JaColBERT, а также, более широко, много-векторные модели. Мы дополнительно повышаем производительность через новый этап объединения контрольных точек, демонстрируя его эффективность в сочетании преимуществ донастройки с возможностями обобщения исходной контрольной точки. Основываясь на нашем анализе, мы представляем новый метод обучения, что приводит к модели JaColBERTv2.5. JaColBERTv2.5, с всего 110 миллионами параметров и обученная менее чем за 15 часов на 4 GPU A100, значительно превосходит все существующие методы по всем общим бенчмаркам, достигая среднего показателя 0.754, значительно выше предыдущего лучшего показателя в 0.720. Для поддержки будущих исследований мы делаем наши конечные модели, промежуточные контрольные точки и все использованные данные общедоступными.
English
Neural Information Retrieval has advanced rapidly in high-resource languages,
but progress in lower-resource ones such as Japanese has been hindered by data
scarcity, among other challenges. Consequently, multilingual models have
dominated Japanese retrieval, despite their computational inefficiencies and
inability to capture linguistic nuances. While recent multi-vector monolingual
models like JaColBERT have narrowed this gap, they still lag behind
multilingual methods in large-scale evaluations. This work addresses the
suboptimal training methods of multi-vector retrievers in lower-resource
settings, focusing on Japanese. We systematically evaluate and improve key
aspects of the inference and training settings of JaColBERT, and more broadly,
multi-vector models. We further enhance performance through a novel checkpoint
merging step, showcasing it to be an effective way of combining the benefits of
fine-tuning with the generalization capabilities of the original checkpoint.
Building on our analysis, we introduce a novel training recipe, resulting in
the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and
trained in under 15 hours on 4 A100 GPUs, significantly outperforms all
existing methods across all common benchmarks, reaching an average score of
0.754, significantly above the previous best of 0.720. To support future
research, we make our final models, intermediate checkpoints and all data used
publicly available.Summary
AI-Generated Summary