F2LLM-v2: Incrustaciones Inclusivas, de Alto Rendimiento y Eficientes para un Mundo Multilingüe

Resumen

Presentamos F2LLM-v2, una nueva familia de modelos de embeddings multilingües de propósito general en 8 tamaños distintos que van desde 80M hasta 14B. Entrenado en una nueva composición curada de 60 millones de muestras de datos públicos de alta calidad, F2LLM-v2 admite más de 200 idiomas, con especial énfasis en lenguas de recursos medios y bajos previamente poco atendidas. Mediante la integración de un pipeline de entrenamiento de embeddings basado en LLM de dos etapas con técnicas de aprendizaje *matryoshka*, poda de modelos y destilación de conocimiento, presentamos modelos que son mucho más eficientes que los modelos de embeddings basados en LLM anteriores, manteniendo un rendimiento competitivo. Evaluaciones exhaustivas confirman que F2LLM-v2-14B ocupa el primer puesto en 11 benchmarks de MTEB, mientras que los modelos más pequeños de la familia también establecen un nuevo estado del arte para aplicaciones con recursos limitados. Para facilitar la investigación de modelos de embeddings de código abierto, publicamos todos los modelos, datos, código y puntos de control intermedios.

English

We present F2LLM-v2, a new family of general-purpose, multilingual embedding models in 8 distinct sizes ranging from 80M to 14B. Trained on a newly curated composite of 60 million publicly available high-quality data samples, F2LLM-v2 supports more than 200 languages, with a particular emphasis on previously underserved mid- and low-resource languages. By integrating a two-stage LLM-based embedding training pipeline with matryoshka learning, model pruning, and knowledge distillation techniques, we present models that are far more efficient than previous LLM-based embedding models while retaining competitive performances. Extensive evaluations confirm that F2LLM-v2-14B ranks first on 11 MTEB benchmarks, while the smaller models in the family also set a new state of the art for resource-constrained applications. To facilitate open-source embedding model research, we release all models, data, code, and intermediate checkpoints.

F2LLM-v2: Incrustaciones Inclusivas, de Alto Rendimiento y Eficientes para un Mundo Multilingüe

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Resumen

Support