F2LLM-v2: Inklusive, leistungsstarke und effiziente Embeddings für eine mehrsprachige Welt

Zusammenfassung

Wir stellen F2LLM-v2 vor, eine neue Familie vielseitiger, mehrsprachiger Embedding-Modelle in 8 verschiedenen Größen von 80M bis 14B. Das Modell wurde auf einem neu kuratierten Datensatz von 60 Millionen öffentlich verfügbaren, hochwertigen Datenpunkten trainiert und unterstützt über 200 Sprachen, mit besonderem Fokus auf bisher unterversorgte Mittel- und Niedrigressourcensprachen. Durch die Integration einer zweistufigen, LLM-basierten Embedding-Trainingspipeline mit Matrjoschka-Lernen, Modellverschlankung und Wissensdistillation präsentieren wir Modelle, die erheblich effizienter als frühere LLM-basierte Embedding-Modelle sind, bei gleichzeitig wettbewerbsfähiger Leistung. Umfassende Evaluationen bestätigen, dass F2LLM-v2-14B auf 11 MTEB-Benchmarks den ersten Platz belegt, während die kleineren Modelle der Familie einen neuen State-of-the-Art für ressourcenbeschränkte Anwendungen setzen. Zur Förderung der Open-Source-Forschung an Embedding-Modellen veröffentlichen wir alle Modelle, Daten, Codes und Zwischencheckpoints.

English

We present F2LLM-v2, a new family of general-purpose, multilingual embedding models in 8 distinct sizes ranging from 80M to 14B. Trained on a newly curated composite of 60 million publicly available high-quality data samples, F2LLM-v2 supports more than 200 languages, with a particular emphasis on previously underserved mid- and low-resource languages. By integrating a two-stage LLM-based embedding training pipeline with matryoshka learning, model pruning, and knowledge distillation techniques, we present models that are far more efficient than previous LLM-based embedding models while retaining competitive performances. Extensive evaluations confirm that F2LLM-v2-14B ranks first on 11 MTEB benchmarks, while the smaller models in the family also set a new state of the art for resource-constrained applications. To facilitate open-source embedding model research, we release all models, data, code, and intermediate checkpoints.

F2LLM-v2: Inklusive, leistungsstarke und effiziente Embeddings für eine mehrsprachige Welt

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Zusammenfassung

Support