F2LLM-v2: Incorporações Inclusivas, de Alto Desempenho e Eficientes para um Mundo Multilíngue

Resumo

Apresentamos o F2LLM-v2, uma nova família de modelos de incorporação multilingues de propósito geral em 8 tamanhos distintos, variando de 80M a 14B de parâmetros. Treinado em uma nova composição curada de 60 milhões de amostras de dados públicos de alta qualidade, o F2LLM-v2 suporta mais de 200 idiomas, com ênfase particular em línguas de recursos médios e baixos previamente subatendidas. Ao integrar um pipeline de treinamento de incorporação baseado em LLM em dois estágios com técnicas de aprendizado *matryoshka*, poda de modelos e destilação de conhecimento, apresentamos modelos muito mais eficientes do que os modelos de incorporação baseados em LLM anteriores, mantendo desempenhos competitivos. Avaliações extensivas confirmam que o F2LLM-v2-14B ocupa a primeira posição em 11 benchmarks do MTEB, enquanto os modelos menores da família também estabelecem um novo estado da arte para aplicações com restrições de recursos. Para facilitar a pesquisa de modelos de incorporação de código aberto, disponibilizamos todos os modelos, dados, códigos e *checkpoints* intermediários.

English

We present F2LLM-v2, a new family of general-purpose, multilingual embedding models in 8 distinct sizes ranging from 80M to 14B. Trained on a newly curated composite of 60 million publicly available high-quality data samples, F2LLM-v2 supports more than 200 languages, with a particular emphasis on previously underserved mid- and low-resource languages. By integrating a two-stage LLM-based embedding training pipeline with matryoshka learning, model pruning, and knowledge distillation techniques, we present models that are far more efficient than previous LLM-based embedding models while retaining competitive performances. Extensive evaluations confirm that F2LLM-v2-14B ranks first on 11 MTEB benchmarks, while the smaller models in the family also set a new state of the art for resource-constrained applications. To facilitate open-source embedding model research, we release all models, data, code, and intermediate checkpoints.

F2LLM-v2: Incorporações Inclusivas, de Alto Desempenho e Eficientes para um Mundo Multilíngue

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Resumo

Support