ChatPaper.aiChatPaper

Rapport technique F2LLM : Atteindre les performances d'embedding de pointe avec 6 millions de données open source

F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data

October 2, 2025
papers.authors: Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang
cs.AI

papers.abstract

Nous présentons F2LLM - Foundation to Feature Large Language Models, une suite de modèles d'embedding de pointe disponibles en trois tailles : 0,6B, 1,7B et 4B. Contrairement aux modèles d'embedding précédemment classés en tête, qui nécessitent un pré-entraînement contrastif massif, des pipelines d'entraînement sophistiqués et des données d'entraînement synthétiques coûteuses, F2LLM est directement affiné à partir de modèles de base sur 6 millions de tuples requête-document-négatif issus de jeux de données open-source et non synthétiques, offrant ainsi un équilibre solide entre coût d'entraînement, taille du modèle et performance d'embedding. Sur le classement MTEB en anglais, F2LLM-4B se classe 2ᵉ parmi les modèles d'environ 4B paramètres et 7ᵉ au classement général, tandis que F2LLM-1,7B occupe la 1ʳᵉ place parmi les modèles de la plage de taille 1B-2B. Pour faciliter les recherches futures dans ce domaine, nous publions les modèles, le jeu de données d'entraînement et le code, positionnant F2LLM comme une base de référence solide, reproductible et économique pour les travaux à venir.
English
We introduce F2LLM - Foundation to Feature Large Language Models, a suite of state-of-the-art embedding models in three sizes: 0.6B, 1.7B, and 4B. Unlike previous top-ranking embedding models that require massive contrastive pretraining, sophisticated training pipelines, and costly synthetic training data, F2LLM is directly finetuned from foundation models on 6 million query-document-negative tuples curated from open-source, non-synthetic datasets, striking a strong balance between training cost, model size, and embedding performance. On the MTEB English leaderboard, F2LLM-4B ranks 2nd among models with approximately 4B parameters and 7th overall, while F2LLM-1.7B ranks 1st among models in the 1B-2B size range. To facilitate future research in the field, we release the models, training dataset, and code, positioning F2LLM as a strong, reproducible, and budget-friendly baseline for future works.
PDF412October 3, 2025