F2LLM Technisch Rapport: Gelijkwaardige prestaties aan SOTA-embeddingen met 6 miljoen open-source gegevens

Samenvatting

We introduceren F2LLM - Foundation to Feature Large Language Models, een suite van state-of-the-art embeddingmodellen in drie formaten: 0.6B, 1.7B en 4B. In tegenstelling tot eerder toonaangevende embeddingmodellen die massale contrastieve voorpretraining, geavanceerde trainingspijplijnen en kostbare synthetische trainingsdata vereisen, wordt F2LLM direct gefinetuned vanuit foundationmodellen op 6 miljoen query-document-negatieve tuples die zijn samengesteld uit open-source, niet-synthetische datasets. Hiermee wordt een sterke balans gevonden tussen trainingskosten, modelgrootte en embeddingprestaties. Op de MTEB English leaderboard staat F2LLM-4B op de 2e plaats onder modellen met ongeveer 4B parameters en op de 7e plaats overall, terwijl F2LLM-1.7B op de 1e plaats staat onder modellen in het 1B-2B groottebereik. Om toekomstig onderzoek in het veld te faciliteren, maken we de modellen, de trainingsdataset en de code beschikbaar, waardoor F2LLM zich positioneert als een sterke, reproduceerbare en budgetvriendelijke basislijn voor toekomstig werk.

English

We introduce F2LLM - Foundation to Feature Large Language Models, a suite of state-of-the-art embedding models in three sizes: 0.6B, 1.7B, and 4B. Unlike previous top-ranking embedding models that require massive contrastive pretraining, sophisticated training pipelines, and costly synthetic training data, F2LLM is directly finetuned from foundation models on 6 million query-document-negative tuples curated from open-source, non-synthetic datasets, striking a strong balance between training cost, model size, and embedding performance. On the MTEB English leaderboard, F2LLM-4B ranks 2nd among models with approximately 4B parameters and 7th overall, while F2LLM-1.7B ranks 1st among models in the 1B-2B size range. To facilitate future research in the field, we release the models, training dataset, and code, positioning F2LLM as a strong, reproducible, and budget-friendly baseline for future works.

F2LLM Technisch Rapport: Gelijkwaardige prestaties aan SOTA-embeddingen met 6 miljoen open-source gegevens

F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data

Samenvatting

Support