F2LLM Technischer Bericht: Erreichen von State-of-the-Art Embedding-Leistung mit 6 Millionen Open-Source-Daten
F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data
October 2, 2025
papers.authors: Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang
cs.AI
papers.abstract
Wir stellen F2LLM vor – Foundation to Feature Large Language Models, eine Suite von State-of-the-Art-Einbettungsmodellen in drei Größen: 0,6B, 1,7B und 4B. Im Gegensatz zu früheren Top-Einbettungsmodellen, die massives kontrastives Pretraining, anspruchsvolle Trainingspipelines und kostspielige synthetische Trainingsdaten erfordern, wird F2LLM direkt aus Foundation-Modellen auf 6 Millionen Query-Dokument-Negativ-Tupeln feinabgestimmt, die aus Open-Source-, nicht-synthetischen Datensätzen kuratiert wurden. Dies schafft eine starke Balance zwischen Trainingskosten, Modellgröße und Einbettungsleistung. Auf dem MTEB-English-Leaderboard belegt F2LLM-4B den 2. Platz unter den Modellen mit etwa 4B Parametern und den 7. Platz insgesamt, während F2LLM-1,7B den 1. Platz unter den Modellen im Bereich von 1B-2B einnimmt. Um zukünftige Forschung in diesem Bereich zu fördern, veröffentlichen wir die Modelle, den Trainingsdatensatz und den Code und positionieren F2LLM als eine starke, reproduzierbare und kostengünstige Baseline für zukünftige Arbeiten.
English
We introduce F2LLM - Foundation to Feature Large Language Models, a suite of
state-of-the-art embedding models in three sizes: 0.6B, 1.7B, and 4B. Unlike
previous top-ranking embedding models that require massive contrastive
pretraining, sophisticated training pipelines, and costly synthetic training
data, F2LLM is directly finetuned from foundation models on 6 million
query-document-negative tuples curated from open-source, non-synthetic
datasets, striking a strong balance between training cost, model size, and
embedding performance. On the MTEB English leaderboard, F2LLM-4B ranks 2nd
among models with approximately 4B parameters and 7th overall, while F2LLM-1.7B
ranks 1st among models in the 1B-2B size range. To facilitate future research
in the field, we release the models, training dataset, and code, positioning
F2LLM as a strong, reproducible, and budget-friendly baseline for future works.