Informe Técnico de F2LLM: Igualando el Rendimiento de los Mejores Modelos de Embedding con 6 Millones de Datos de Código Abierto
F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data
October 2, 2025
Autores: Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang
cs.AI
Resumen
Presentamos F2LLM - Foundation to Feature Large Language Models, una suite de modelos de embeddings de última generación en tres tamaños: 0.6B, 1.7B y 4B. A diferencia de los modelos de embeddings previamente mejor posicionados, que requieren un preentrenamiento contrastivo masivo, pipelines de entrenamiento sofisticados y datos sintéticos de entrenamiento costosos, F2LLM se ajusta directamente a partir de modelos base utilizando 6 millones de tuplas consulta-documento-negativo curadas a partir de conjuntos de datos de código abierto y no sintéticos, logrando un equilibrio sólido entre el costo de entrenamiento, el tamaño del modelo y el rendimiento de los embeddings. En el ranking MTEB en inglés, F2LLM-4B ocupa el 2º lugar entre los modelos con aproximadamente 4B parámetros y el 7º en general, mientras que F2LLM-1.7B se posiciona en el 1º lugar entre los modelos en el rango de 1B-2B parámetros. Para facilitar futuras investigaciones en el campo, publicamos los modelos, el conjunto de datos de entrenamiento y el código, posicionando a F2LLM como una línea base sólida, reproducible y económica para trabajos futuros.
English
We introduce F2LLM - Foundation to Feature Large Language Models, a suite of
state-of-the-art embedding models in three sizes: 0.6B, 1.7B, and 4B. Unlike
previous top-ranking embedding models that require massive contrastive
pretraining, sophisticated training pipelines, and costly synthetic training
data, F2LLM is directly finetuned from foundation models on 6 million
query-document-negative tuples curated from open-source, non-synthetic
datasets, striking a strong balance between training cost, model size, and
embedding performance. On the MTEB English leaderboard, F2LLM-4B ranks 2nd
among models with approximately 4B parameters and 7th overall, while F2LLM-1.7B
ranks 1st among models in the 1B-2B size range. To facilitate future research
in the field, we release the models, training dataset, and code, positioning
F2LLM as a strong, reproducible, and budget-friendly baseline for future works.