LUSIFER : Intégration de l'Espace Universel de Langue pour des Incrustations Multilingues Améliorées avec de Grands Modèles de Langue
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models
January 1, 2025
Auteurs: Hieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen
cs.AI
Résumé
Les récents progrès dans les modèles de langage de grande taille (LLMs) basés sur des modèles d'incorporation ont établi de nouveaux benchmarks de pointe pour les tâches d'incorporation de texte, en particulier dans la recherche basée sur des vecteurs denses. Cependant, ces modèles se concentrent principalement sur l'anglais, laissant les capacités d'incorporation multilingues largement inexplorées. Pour remédier à cette limitation, nous présentons LUSIFER, une nouvelle approche de type zero-shot qui adapte les modèles d'incorporation basés sur LLM pour les tâches multilingues sans nécessiter de supervision multilingue. L'architecture de LUSIFER combine un encodeur multilingue, agissant comme un apprenant universel de langues, avec un modèle d'incorporation basé sur LLM optimisé pour des tâches spécifiques d'incorporation. Ces composants sont intégrés de manière transparente à travers un ensemble minimal de paramètres entraînables agissant comme un connecteur, transférant efficacement les capacités de compréhension des langues de l'encodeur multilingue au modèle d'incorporation spécialisé. De plus, pour évaluer de manière exhaustive les performances d'incorporation multilingue, nous introduisons un nouveau benchmark comprenant 5 tâches d'incorporation principales, 123 ensembles de données divers et une couverture dans 14 langues. Des résultats expérimentaux approfondis démontrent que LUSIFER améliore significativement les performances multilingues dans diverses tâches d'incorporation, en particulier pour les langues à ressources moyennes et faibles, sans nécessiter de données d'entraînement multilingues explicites.
English
Recent advancements in large language models (LLMs) based embedding models
have established new state-of-the-art benchmarks for text embedding tasks,
particularly in dense vector-based retrieval. However, these models
predominantly focus on English, leaving multilingual embedding capabilities
largely unexplored. To address this limitation, we present LUSIFER, a novel
zero-shot approach that adapts LLM-based embedding models for multilingual
tasks without requiring multilingual supervision. LUSIFER's architecture
combines a multilingual encoder, serving as a language-universal learner, with
an LLM-based embedding model optimized for embedding-specific tasks. These
components are seamlessly integrated through a minimal set of trainable
parameters that act as a connector, effectively transferring the multilingual
encoder's language understanding capabilities to the specialized embedding
model. Additionally, to comprehensively evaluate multilingual embedding
performance, we introduce a new benchmark encompassing 5 primary embedding
tasks, 123 diverse datasets, and coverage across 14 languages. Extensive
experimental results demonstrate that LUSIFER significantly enhances the
multilingual performance across various embedding tasks, particularly for
medium and low-resource languages, without requiring explicit multilingual
training data.Summary
AI-Generated Summary