F2LLM-v2 : Des plongages lexicaux inclusifs, performants et efficaces pour un monde multilingue

Résumé

Nous présentons F2LLM-v2, une nouvelle famille de modèles d'encodage multilingues à usage général, disponibles en 8 tailles distinctes allant de 80 millions à 14 milliards de paramètres. Entraîné sur un nouvel ensemble composite de 60 millions d'échantillons de données publiques de haute qualité, F2LLM-v2 prend en charge plus de 200 langues, avec un accent particulier sur les langues à ressources limitées ou intermédiaires précédemment sous-représentées. En intégrant un pipeline d'entraînement en deux étapes basé sur des modèles de langage de grande taille avec l'apprentissage matriochka, l'élagage de modèles et les techniques de distillation des connaissances, nous proposons des modèles bien plus efficaces que les précédents modèles d'encodage basés sur des LLM, tout en conservant des performances compétitives. Des évaluations approfondies confirment que F2LLM-v2-14B se classe premier sur 11 benchmarks MTEB, tandis que les modèles plus petits de la famille établissent également un nouvel état de l'art pour les applications à ressources limitées. Pour faciliter la recherche open-source sur les modèles d'encodage, nous publions l'ensemble des modèles, données, codes et points de contrôle intermédiaires.

English

We present F2LLM-v2, a new family of general-purpose, multilingual embedding models in 8 distinct sizes ranging from 80M to 14B. Trained on a newly curated composite of 60 million publicly available high-quality data samples, F2LLM-v2 supports more than 200 languages, with a particular emphasis on previously underserved mid- and low-resource languages. By integrating a two-stage LLM-based embedding training pipeline with matryoshka learning, model pruning, and knowledge distillation techniques, we present models that are far more efficient than previous LLM-based embedding models while retaining competitive performances. Extensive evaluations confirm that F2LLM-v2-14B ranks first on 11 MTEB benchmarks, while the smaller models in the family also set a new state of the art for resource-constrained applications. To facilitate open-source embedding model research, we release all models, data, code, and intermediate checkpoints.

F2LLM-v2 : Des plongages lexicaux inclusifs, performants et efficaces pour un monde multilingue

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Résumé

Support