ChatPaper.aiChatPaper

LUSIFER: Integración de Espacio Universal de Lenguaje para Mejorar Incrustaciones Multilingües con Modelos de Lenguaje Grandes

LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

January 1, 2025
Autores: Hieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen
cs.AI

Resumen

Los recientes avances en modelos de lenguaje grandes (LLMs) basados en modelos de incrustación han establecido nuevos puntos de referencia de vanguardia para tareas de incrustación de texto, especialmente en recuperación basada en vectores densos. Sin embargo, estos modelos se centran predominantemente en el inglés, dejando en gran medida sin explorar las capacidades de incrustación multilingüe. Para abordar esta limitación, presentamos LUSIFER, un enfoque novedoso de cero disparo que adapta modelos de incrustación basados en LLM para tareas multilingües sin requerir supervisión multilingüe. La arquitectura de LUSIFER combina un codificador multilingüe, que actúa como un aprendiz universal de lenguajes, con un modelo de incrustación basado en LLM optimizado para tareas específicas de incrustación. Estos componentes se integran de manera transparente a través de un conjunto mínimo de parámetros entrenables que funcionan como un conector, transfiriendo eficazmente las capacidades de comprensión del lenguaje del codificador multilingüe al modelo de incrustación especializado. Además, para evaluar exhaustivamente el rendimiento de la incrustación multilingüe, presentamos un nuevo punto de referencia que abarca 5 tareas de incrustación principales, 123 conjuntos de datos diversos y cobertura en 14 idiomas. Los extensos resultados experimentales demuestran que LUSIFER mejora significativamente el rendimiento multilingüe en diversas tareas de incrustación, especialmente para idiomas con recursos medios y bajos, sin necesidad de datos de entrenamiento multilingües explícitos.
English
Recent advancements in large language models (LLMs) based embedding models have established new state-of-the-art benchmarks for text embedding tasks, particularly in dense vector-based retrieval. However, these models predominantly focus on English, leaving multilingual embedding capabilities largely unexplored. To address this limitation, we present LUSIFER, a novel zero-shot approach that adapts LLM-based embedding models for multilingual tasks without requiring multilingual supervision. LUSIFER's architecture combines a multilingual encoder, serving as a language-universal learner, with an LLM-based embedding model optimized for embedding-specific tasks. These components are seamlessly integrated through a minimal set of trainable parameters that act as a connector, effectively transferring the multilingual encoder's language understanding capabilities to the specialized embedding model. Additionally, to comprehensively evaluate multilingual embedding performance, we introduce a new benchmark encompassing 5 primary embedding tasks, 123 diverse datasets, and coverage across 14 languages. Extensive experimental results demonstrate that LUSIFER significantly enhances the multilingual performance across various embedding tasks, particularly for medium and low-resource languages, without requiring explicit multilingual training data.

Summary

AI-Generated Summary

PDF132January 6, 2025