ChatPaper.aiChatPaper

LUSIFER: Языковая универсальная интеграция пространства для улучшенных мультиязычных вложений с использованием больших моделей языка

LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

January 1, 2025
Авторы: Hieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen
cs.AI

Аннотация

Недавние достижения в области моделей на основе больших языковых моделей (LLM) установили новые стандарты для задач встраивания текста, особенно в плотно векторизованном поиске. Однако эти модели в основном сосредотачиваются на английском языке, оставляя многие возможности мультиязычного встраивания практически неисследованными. Для преодоления этого ограничения мы представляем LUSIFER, новый подход к нулевому обучению, который адаптирует модели встраивания на основе LLM для мультиязычных задач без необходимости мультиязычного наблюдения. Архитектура LUSIFER объединяет мультиязычный кодер, который служит универсальным для языков, с моделью встраивания на основе LLM, оптимизированной для конкретных задач встраивания. Эти компоненты без проблем интегрируются через минимальный набор обучаемых параметров, которые действуют как соединитель, эффективно передавая способности мультиязычного кодера по пониманию языка специализированной модели встраивания. Кроме того, для всесторонней оценки производительности мультиязычного встраивания мы представляем новый стандарт, охватывающий 5 основных задач встраивания, 123 различных набора данных и охват 14 языков. Обширные экспериментальные результаты демонстрируют, что LUSIFER значительно улучшает мультиязычную производительность в различных задачах встраивания, особенно для языков средних и низких ресурсов, не требуя явных мультиязычных обучающих данных.
English
Recent advancements in large language models (LLMs) based embedding models have established new state-of-the-art benchmarks for text embedding tasks, particularly in dense vector-based retrieval. However, these models predominantly focus on English, leaving multilingual embedding capabilities largely unexplored. To address this limitation, we present LUSIFER, a novel zero-shot approach that adapts LLM-based embedding models for multilingual tasks without requiring multilingual supervision. LUSIFER's architecture combines a multilingual encoder, serving as a language-universal learner, with an LLM-based embedding model optimized for embedding-specific tasks. These components are seamlessly integrated through a minimal set of trainable parameters that act as a connector, effectively transferring the multilingual encoder's language understanding capabilities to the specialized embedding model. Additionally, to comprehensively evaluate multilingual embedding performance, we introduce a new benchmark encompassing 5 primary embedding tasks, 123 diverse datasets, and coverage across 14 languages. Extensive experimental results demonstrate that LUSIFER significantly enhances the multilingual performance across various embedding tasks, particularly for medium and low-resource languages, without requiring explicit multilingual training data.

Summary

AI-Generated Summary

PDF132January 6, 2025