F2LLM-v2: Inclusieve, Prestatiegerichte en Efficiënte Embeddings voor een Meertalige Wereld

Samenvatting

Wij presenteren F2LLM-v2, een nieuwe familie van algemeen inzetbare, meertalige embeddingmodellen in 8 verschillende groottes, variërend van 80M tot 14B parameters. Getraind op een nieuw samengestelde dataset van 60 miljoen publiek beschikbare, hoogwaardige datapunten, ondersteunt F2LLM-v2 meer dan 200 talen, met bijzondere aandacht voor eerder onderbedeelde midden- en laag-resourcetalen. Door een tweefasig trainingsproces op basis van LLM's te integreren met matroesjka-learning, modelpruning en kennisdistillatie, presenteren we modellen die aanzienlijk efficiënter zijn dan eerdere LLM-gebaseerde embeddingmodellen, terwijl ze competitieve prestaties behouden. Uitgebreide evaluaties bevestigen dat F2LLM-v2-14B de eerste plaats inneemt op 11 MTEB-benchmarks, terwijl de kleinere modellen in de familie eveneens een nieuwe staat-van-de-kunst vestigen voor toepassingen met beperkte resources. Om onderzoek naar open-source-embeddingmodellen te bevorderen, maken wij alle modellen, data, code en tussentijdse checkpoints openbaar.

English

We present F2LLM-v2, a new family of general-purpose, multilingual embedding models in 8 distinct sizes ranging from 80M to 14B. Trained on a newly curated composite of 60 million publicly available high-quality data samples, F2LLM-v2 supports more than 200 languages, with a particular emphasis on previously underserved mid- and low-resource languages. By integrating a two-stage LLM-based embedding training pipeline with matryoshka learning, model pruning, and knowledge distillation techniques, we present models that are far more efficient than previous LLM-based embedding models while retaining competitive performances. Extensive evaluations confirm that F2LLM-v2-14B ranks first on 11 MTEB benchmarks, while the smaller models in the family also set a new state of the art for resource-constrained applications. To facilitate open-source embedding model research, we release all models, data, code, and intermediate checkpoints.

F2LLM-v2: Inclusieve, Prestatiegerichte en Efficiënte Embeddings voor een Meertalige Wereld

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Samenvatting

Support