ChatPaper.aiChatPaper

JaColBERTv2.5: 제한된 자원으로 최신 기술 수준의 일본어 검색기를 구현하기 위한 다중 벡터 검색기 최적화

JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources

July 30, 2024
저자: Benjamin Clavié
cs.AI

초록

신경망 정보 검색(Neural Information Retrieval)은 고자원 언어에서 빠르게 발전해 왔지만, 일본어와 같은 저자원 언어에서는 데이터 부족 등의 문제로 인해 진전이 더딘 상황입니다. 이로 인해 다국어 모델들이 일본어 검색 분야를 주도해 왔지만, 이들은 계산 비효율성과 언어적 뉘앙스를 포착하지 못하는 한계를 지니고 있습니다. 최근 JaColBERT와 같은 다중 벡터 단일 언어 모델들이 이러한 격차를 줄이기는 했지만, 대규모 평가에서는 여전히 다국어 방법들에 뒤처지는 모습을 보였습니다. 본 연구는 일본어를 중심으로 저자원 환경에서 다중 벡터 검색기의 최적화되지 않은 학습 방법을 해결하고자 합니다. 우리는 JaColBERT 및 더 넓게는 다중 벡터 모델들의 추론 및 학습 설정의 주요 측면들을 체계적으로 평가하고 개선했습니다. 또한, 새로운 체크포인트 병합 단계를 통해 성능을 더욱 향상시켰으며, 이는 미세 조정의 이점과 원본 체크포인트의 일반화 능력을 효과적으로 결합하는 방법임을 입증했습니다. 이러한 분석을 바탕으로, 우리는 새로운 학습 레시피를 도입하여 JaColBERTv2.5 모델을 개발했습니다. JaColBERTv2.5는 단 1억 1천만 개의 매개변수로 구성되었으며, 4개의 A100 GPU에서 15시간 미만으로 학습되었음에도 불구하고 모든 일반 벤치마크에서 기존의 모든 방법들을 크게 능가하며 평균 점수 0.754를 달성했습니다. 이는 이전 최고 점수인 0.720을 상당히 상회하는 성과입니다. 향후 연구를 지원하기 위해, 우리는 최종 모델, 중간 체크포인트 및 사용된 모든 데이터를 공개적으로 제공합니다.
English
Neural Information Retrieval has advanced rapidly in high-resource languages, but progress in lower-resource ones such as Japanese has been hindered by data scarcity, among other challenges. Consequently, multilingual models have dominated Japanese retrieval, despite their computational inefficiencies and inability to capture linguistic nuances. While recent multi-vector monolingual models like JaColBERT have narrowed this gap, they still lag behind multilingual methods in large-scale evaluations. This work addresses the suboptimal training methods of multi-vector retrievers in lower-resource settings, focusing on Japanese. We systematically evaluate and improve key aspects of the inference and training settings of JaColBERT, and more broadly, multi-vector models. We further enhance performance through a novel checkpoint merging step, showcasing it to be an effective way of combining the benefits of fine-tuning with the generalization capabilities of the original checkpoint. Building on our analysis, we introduce a novel training recipe, resulting in the JaColBERTv2.5 model. JaColBERTv2.5, with only 110 million parameters and trained in under 15 hours on 4 A100 GPUs, significantly outperforms all existing methods across all common benchmarks, reaching an average score of 0.754, significantly above the previous best of 0.720. To support future research, we make our final models, intermediate checkpoints and all data used publicly available.

Summary

AI-Generated Summary

PDF222November 28, 2024