F2LLM-v2: Embedding Inclusivi, Performanti ed Efficienti per un Mondo Multilingue

Abstract

Presentiamo F2LLM-v2, una nuova famiglia di modelli d'embedding multilingue e per scopi generali, disponibile in 8 dimensioni distinte che vanno da 80 milioni a 14 miliardi di parametri. Addestrato su un nuovo corpus composito, appositamente curato, di 60 milioni di campioni di dati pubblici di alta qualità, F2LLM-v2 supporta oltre 200 lingue, con un'enfasi particolare sulle lingue a risorse medio-basse precedentemente sottorappresentate. Integrando una pipeline di addestramento basata su LLM articolata in due stadi con tecniche di matryoshka learning, pruning del modello e distillazione della conoscenza, presentiamo modelli notevolmente più efficienti rispetto ai precedenti modelli d'embedding basati su LLM, pur mantenendo prestazioni competitive. Valutazioni estensive confermano che F2LLM-v2-14B si colloca al primo posto in 11 benchmark MTEB, mentre i modelli più piccoli della famiglia stabiliscono un nuovo stato dell'arte per applicazioni con vincoli di risorse. Per favorire la ricerca open-source sui modelli d'embedding, rilasciamo tutti i modelli, i dati, il codice e i checkpoint intermedi.

English

We present F2LLM-v2, a new family of general-purpose, multilingual embedding models in 8 distinct sizes ranging from 80M to 14B. Trained on a newly curated composite of 60 million publicly available high-quality data samples, F2LLM-v2 supports more than 200 languages, with a particular emphasis on previously underserved mid- and low-resource languages. By integrating a two-stage LLM-based embedding training pipeline with matryoshka learning, model pruning, and knowledge distillation techniques, we present models that are far more efficient than previous LLM-based embedding models while retaining competitive performances. Extensive evaluations confirm that F2LLM-v2-14B ranks first on 11 MTEB benchmarks, while the smaller models in the family also set a new state of the art for resource-constrained applications. To facilitate open-source embedding model research, we release all models, data, code, and intermediate checkpoints.

F2LLM-v2: Embedding Inclusivi, Performanti ed Efficienti per un Mondo Multilingue

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Abstract

Support