Rapporto Tecnico F2LLM: Uguagliare le Prestazioni degli Embedding SOTA con 6 Milioni di Dati Open-Source
F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data
October 2, 2025
Autori: Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang
cs.AI
Abstract
Presentiamo F2LLM - Foundation to Feature Large Language Models, una suite di modelli di embedding all'avanguardia disponibili in tre dimensioni: 0.6B, 1.7B e 4B. A differenza dei precedenti modelli di embedding di alto livello che richiedono un pre-addestramento contrastivo massiccio, pipeline di addestramento sofisticate e costosi dati di addestramento sintetici, F2LLM viene direttamente perfezionato a partire da modelli di base su 6 milioni di tuple query-documento-negativo curate da dataset open-source e non sintetici, raggiungendo un forte equilibrio tra costo di addestramento, dimensione del modello e prestazioni di embedding. Nella classifica MTEB in lingua inglese, F2LLM-4B si posiziona al 2° posto tra i modelli con circa 4 miliardi di parametri e al 7° posto in generale, mentre F2LLM-1.7B si colloca al 1° posto tra i modelli nella gamma di dimensioni 1B-2B. Per favorire future ricerche nel campo, rilasciamo i modelli, il dataset di addestramento e il codice, posizionando F2LLM come una solida, riproducibile e conveniente baseline per lavori futuri.
English
We introduce F2LLM - Foundation to Feature Large Language Models, a suite of
state-of-the-art embedding models in three sizes: 0.6B, 1.7B, and 4B. Unlike
previous top-ranking embedding models that require massive contrastive
pretraining, sophisticated training pipelines, and costly synthetic training
data, F2LLM is directly finetuned from foundation models on 6 million
query-document-negative tuples curated from open-source, non-synthetic
datasets, striking a strong balance between training cost, model size, and
embedding performance. On the MTEB English leaderboard, F2LLM-4B ranks 2nd
among models with approximately 4B parameters and 7th overall, while F2LLM-1.7B
ranks 1st among models in the 1B-2B size range. To facilitate future research
in the field, we release the models, training dataset, and code, positioning
F2LLM as a strong, reproducible, and budget-friendly baseline for future works.