ChatPaper.aiChatPaper

LUSIFER: Taal Universele Ruimte Integratie voor Verbeterde Meertalige Embeddings met Grote Taalmodellen

LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

January 1, 2025
Auteurs: Hieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen
cs.AI

Samenvatting

Recente ontwikkelingen in grootschalige taalmodellen (LLM's) gebaseerde inbeddingsmodellen hebben nieuwe state-of-the-art benchmarks vastgesteld voor tekstinbeddingstaken, met name in dichtheidvector-gebaseerde ophaling. Echter, deze modellen richten zich voornamelijk op het Engels, waardoor de meertalige inbeddingsmogelijkheden grotendeels onontgonnen blijven. Om deze beperking aan te pakken, presenteren wij LUSIFER, een nieuw zero-shot benadering die LLM-gebaseerde inbeddingsmodellen aanpast voor meertalige taken zonder de noodzaak van meertalig toezicht. De architectuur van LUSIFER combineert een meertalige encoder, die fungeert als een taal-universele leerling, met een LLM-gebaseerd inbeddingsmodel geoptimaliseerd voor inbeddingsspecifieke taken. Deze componenten zijn naadloos geïntegreerd door middel van een minimaal aantal trainbare parameters die fungeren als een connector, waardoor de taalbegripsmogelijkheden van de meertalige encoder effectief worden overgedragen naar het gespecialiseerde inbeddingsmodel. Daarnaast introduceren we een nieuwe benchmark om meertalige inbeddingsprestaties uitgebreid te evalueren, bestaande uit 5 primaire inbeddingstaken, 123 diverse datasets en dekking over 14 talen. Uitgebreide experimentele resultaten tonen aan dat LUSIFER aanzienlijk de meertalige prestaties verbetert over verschillende inbeddingstaken, met name voor talen met middelmatige en lage bronnen, zonder expliciete meertalige trainingsgegevens te vereisen.
English
Recent advancements in large language models (LLMs) based embedding models have established new state-of-the-art benchmarks for text embedding tasks, particularly in dense vector-based retrieval. However, these models predominantly focus on English, leaving multilingual embedding capabilities largely unexplored. To address this limitation, we present LUSIFER, a novel zero-shot approach that adapts LLM-based embedding models for multilingual tasks without requiring multilingual supervision. LUSIFER's architecture combines a multilingual encoder, serving as a language-universal learner, with an LLM-based embedding model optimized for embedding-specific tasks. These components are seamlessly integrated through a minimal set of trainable parameters that act as a connector, effectively transferring the multilingual encoder's language understanding capabilities to the specialized embedding model. Additionally, to comprehensively evaluate multilingual embedding performance, we introduce a new benchmark encompassing 5 primary embedding tasks, 123 diverse datasets, and coverage across 14 languages. Extensive experimental results demonstrate that LUSIFER significantly enhances the multilingual performance across various embedding tasks, particularly for medium and low-resource languages, without requiring explicit multilingual training data.

Summary

AI-Generated Summary

PDF132January 6, 2025