F2LLM Technisch Rapport: Gelijkwaardige prestaties aan SOTA-embeddingen met 6 miljoen open-source gegevens
F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data
October 2, 2025
Auteurs: Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang
cs.AI
Samenvatting
We introduceren F2LLM - Foundation to Feature Large Language Models, een suite van state-of-the-art embeddingmodellen in drie formaten: 0.6B, 1.7B en 4B. In tegenstelling tot eerder toonaangevende embeddingmodellen die massale contrastieve voorpretraining, geavanceerde trainingspijplijnen en kostbare synthetische trainingsdata vereisen, wordt F2LLM direct gefinetuned vanuit foundationmodellen op 6 miljoen query-document-negatieve tuples die zijn samengesteld uit open-source, niet-synthetische datasets. Hiermee wordt een sterke balans gevonden tussen trainingskosten, modelgrootte en embeddingprestaties. Op de MTEB English leaderboard staat F2LLM-4B op de 2e plaats onder modellen met ongeveer 4B parameters en op de 7e plaats overall, terwijl F2LLM-1.7B op de 1e plaats staat onder modellen in het 1B-2B groottebereik. Om toekomstig onderzoek in het veld te faciliteren, maken we de modellen, de trainingsdataset en de code beschikbaar, waardoor F2LLM zich positioneert als een sterke, reproduceerbare en budgetvriendelijke basislijn voor toekomstig werk.
English
We introduce F2LLM - Foundation to Feature Large Language Models, a suite of
state-of-the-art embedding models in three sizes: 0.6B, 1.7B, and 4B. Unlike
previous top-ranking embedding models that require massive contrastive
pretraining, sophisticated training pipelines, and costly synthetic training
data, F2LLM is directly finetuned from foundation models on 6 million
query-document-negative tuples curated from open-source, non-synthetic
datasets, striking a strong balance between training cost, model size, and
embedding performance. On the MTEB English leaderboard, F2LLM-4B ranks 2nd
among models with approximately 4B parameters and 7th overall, while F2LLM-1.7B
ranks 1st among models in the 1B-2B size range. To facilitate future research
in the field, we release the models, training dataset, and code, positioning
F2LLM as a strong, reproducible, and budget-friendly baseline for future works.