ChatPaper.aiChatPaper

LUSIFER: Language Universal Space Integration zur Verbesserung mehrsprachiger Einbettungen mit großen Sprachmodellen

LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

January 1, 2025
Autoren: Hieu Man, Nghia Trung Ngo, Viet Dac Lai, Ryan A. Rossi, Franck Dernoncourt, Thien Huu Nguyen
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte bei großen Sprachmodellen (LLMs) basierte Einbettungsmodelle neue Spitzenwerte für Texteinbettungsaufgaben etabliert, insbesondere im Bereich der dichten Vektor-basierten Rückgewinnung. Diese Modelle konzentrieren sich jedoch hauptsächlich auf Englisch, wodurch die mehrsprachigen Einbettungsfähigkeiten weitgehend unerforscht bleiben. Um diese Einschränkung zu überwinden, präsentieren wir LUSIFER, einen innovativen Zero-Shot-Ansatz, der LLM-basierte Einbettungsmodelle für mehrsprachige Aufgaben anpasst, ohne mehrsprachige Aufsicht zu erfordern. Die Architektur von LUSIFER kombiniert einen mehrsprachigen Encoder, der als sprachuniverseller Lernender dient, mit einem LLM-basierten Einbettungsmodell, das für auf Einbettungen spezifische Aufgaben optimiert ist. Diese Komponenten sind nahtlos durch eine minimale Menge an trainierbaren Parametern integriert, die als Verbindungselemente fungieren und die sprachverstehenden Fähigkeiten des mehrsprachigen Encoders effektiv auf das spezialisierte Einbettungsmodell übertragen. Zusätzlich führen wir zur umfassenden Bewertung der mehrsprachigen Einbettungsleistung einen neuen Benchmark ein, der 5 primäre Einbettungsaufgaben, 123 verschiedene Datensätze und eine Abdeckung von 14 Sprachen umfasst. Umfangreiche experimentelle Ergebnisse zeigen, dass LUSIFER die mehrsprachige Leistung bei verschiedenen Einbettungsaufgaben signifikant verbessert, insbesondere für mittel- und geringfügig ressourcenreiche Sprachen, ohne explizite mehrsprachige Trainingsdaten zu erfordern.
English
Recent advancements in large language models (LLMs) based embedding models have established new state-of-the-art benchmarks for text embedding tasks, particularly in dense vector-based retrieval. However, these models predominantly focus on English, leaving multilingual embedding capabilities largely unexplored. To address this limitation, we present LUSIFER, a novel zero-shot approach that adapts LLM-based embedding models for multilingual tasks without requiring multilingual supervision. LUSIFER's architecture combines a multilingual encoder, serving as a language-universal learner, with an LLM-based embedding model optimized for embedding-specific tasks. These components are seamlessly integrated through a minimal set of trainable parameters that act as a connector, effectively transferring the multilingual encoder's language understanding capabilities to the specialized embedding model. Additionally, to comprehensively evaluate multilingual embedding performance, we introduce a new benchmark encompassing 5 primary embedding tasks, 123 diverse datasets, and coverage across 14 languages. Extensive experimental results demonstrate that LUSIFER significantly enhances the multilingual performance across various embedding tasks, particularly for medium and low-resource languages, without requiring explicit multilingual training data.

Summary

AI-Generated Summary

PDF132January 6, 2025