LUSIFER: 대규모 언어 모델을 활용한 향상된 다국어 임베딩을 위한 언어 유니버설 공간 통합
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models
January 1, 2025
저자: Hieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
초록
최근 대형 언어 모델(LLM) 기반 임베딩 모델의 발전으로 텍스트 임베딩 작업에서 새로운 최첨단 벤치마크가 수립되었는데, 특히 밀집 벡터 기반 검색에서 두드러진 성과를 보이고 있습니다. 그러나 이러한 모델들은 주로 영어에 초점을 맞추어 다국어 임베딩 능력을 크게 탐구하지 않았습니다. 이 한계를 극복하기 위해, 우리는 LUSIFER를 제안합니다. 이는 다국어 감독을 필요로 하지 않고 다국어 작업에 대한 LLM 기반 임베딩 모델을 적응시키는 새로운 제로샷 접근법입니다. LUSIFER의 아키텍처는 다국어 인코더와 LLM 기반 임베딩 모델을 결합하여 언어-범용 학습자 역할을 하는데, 이를 임베딩 특정 작업에 최적화된 구조로 구성합니다. 이러한 구성 요소들은 연결자로 작용하는 학습 가능한 최소한의 매개변수를 통해 원활하게 통합되어, 다국어 인코더의 언어 이해 능력을 전문화된 임베딩 모델로 효과적으로 전달합니다. 게다가, 다국어 임베딩 성능을 철저히 평가하기 위해 5가지 주요 임베딩 작업, 123가지 다양한 데이터셋 및 14개 언어에 걸쳐 커버리지를 포함하는 새로운 벤치마크를 소개합니다. 방대한 실험 결과는 LUSIFER가 명시적인 다국어 훈련 데이터가 필요 없이 다양한 임베딩 작업에서 특히 중간 및 저자원 언어에 대한 다국어 성능을 현저히 향상시킨다는 것을 입증합니다.
English
Recent advancements in large language models (LLMs) based embedding models
have established new state-of-the-art benchmarks for text embedding tasks,
particularly in dense vector-based retrieval. However, these models
predominantly focus on English, leaving multilingual embedding capabilities
largely unexplored. To address this limitation, we present LUSIFER, a novel
zero-shot approach that adapts LLM-based embedding models for multilingual
tasks without requiring multilingual supervision. LUSIFER's architecture
combines a multilingual encoder, serving as a language-universal learner, with
an LLM-based embedding model optimized for embedding-specific tasks. These
components are seamlessly integrated through a minimal set of trainable
parameters that act as a connector, effectively transferring the multilingual
encoder's language understanding capabilities to the specialized embedding
model. Additionally, to comprehensively evaluate multilingual embedding
performance, we introduce a new benchmark encompassing 5 primary embedding
tasks, 123 diverse datasets, and coverage across 14 languages. Extensive
experimental results demonstrate that LUSIFER significantly enhances the
multilingual performance across various embedding tasks, particularly for
medium and low-resource languages, without requiring explicit multilingual
training data.Summary
AI-Generated Summary