Relatório Técnico F2LLM: Igualando o Desempenho de Embeddings de Estado da Arte com 6 Milhões de Dados de Código Aberto
F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data
October 2, 2025
Autores: Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang
cs.AI
Resumo
Apresentamos o F2LLM - Foundation to Feature Large Language Models, um conjunto de modelos de embedding de última geração em três tamanhos: 0,6B, 1,7B e 4B. Diferentemente dos modelos de embedding anteriormente mais bem classificados, que exigem um pré-treinamento contrastivo massivo, pipelines de treinamento sofisticados e dados de treinamento sintéticos custosos, o F2LLM é ajustado diretamente a partir de modelos de base em 6 milhões de tuplas consulta-documento-negativo, curadas a partir de conjuntos de dados de código aberto e não sintéticos, alcançando um forte equilíbrio entre custo de treinamento, tamanho do modelo e desempenho de embedding. No ranking MTEB em inglês, o F2LLM-4B ocupa a 2ª posição entre modelos com aproximadamente 4 bilhões de parâmetros e a 7ª posição geral, enquanto o F2LLM-1,7B lidera entre modelos na faixa de 1B-2B. Para facilitar pesquisas futuras na área, disponibilizamos os modelos, o conjunto de dados de treinamento e o código, posicionando o F2LLM como uma linha de base forte, reproduzível e acessível para trabalhos futuros.
English
We introduce F2LLM - Foundation to Feature Large Language Models, a suite of
state-of-the-art embedding models in three sizes: 0.6B, 1.7B, and 4B. Unlike
previous top-ranking embedding models that require massive contrastive
pretraining, sophisticated training pipelines, and costly synthetic training
data, F2LLM is directly finetuned from foundation models on 6 million
query-document-negative tuples curated from open-source, non-synthetic
datasets, striking a strong balance between training cost, model size, and
embedding performance. On the MTEB English leaderboard, F2LLM-4B ranks 2nd
among models with approximately 4B parameters and 7th overall, while F2LLM-1.7B
ranks 1st among models in the 1B-2B size range. To facilitate future research
in the field, we release the models, training dataset, and code, positioning
F2LLM as a strong, reproducible, and budget-friendly baseline for future works.