ChatPaper.aiChatPaper

Fantastiques (petits) Retrievers et Comment les Entraîner : Rapport Technique mxbai-edge-colbert-v0

Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report

October 16, 2025
papers.authors: Rikiya Takehi, Benjamin Clavié, Sean Lee, Aamir Shakir
cs.AI

papers.abstract

Dans ce travail, nous présentons les modèles mxbai-edge-colbert-v0, disponibles en deux tailles de paramètres : 17M et 32M. Dans le cadre de nos recherches, nous menons de nombreuses expériences visant à améliorer les modèles de recherche et d'interaction tardive, que nous souhaitons distiller en modèles plus petits comme preuves de concept. Notre objectif ultime est de soutenir la recherche à toutes les échelles, depuis la recherche à grande échelle hébergée dans le cloud jusqu'aux modèles pouvant fonctionner localement sur n'importe quel appareil. mxbai-edge-colbert-v0 est un modèle que nous espérons voir servir de fondation solide pour toutes les expériences futures, représentant la première version d'une longue série de petites preuves de concept. Dans le cadre du développement de mxbai-edge-colbert-v0, nous avons réalisé plusieurs études d'ablation, dont nous rapportons les résultats. En termes de performance en aval, mxbai-edge-colbert-v0 est un petit modèle particulièrement performant, surpassant ColBERTv2 sur des benchmarks courants de texte court (BEIR) et marquant une avancée significative dans les tâches de contexte long, avec une efficacité sans précédent.
English
In this work, we introduce mxbai-edge-colbert-v0 models, at two different parameter counts: 17M and 32M. As part of our research, we conduct numerous experiments to improve retrieval and late-interaction models, which we intend to distill into smaller models as proof-of-concepts. Our ultimate aim is to support retrieval at all scales, from large-scale retrieval which lives in the cloud to models that can run locally, on any device. mxbai-edge-colbert-v0 is a model that we hope will serve as a solid foundation backbone for all future experiments, representing the first version of a long series of small proof-of-concepts. As part of the development of mxbai-edge-colbert-v0, we conducted multiple ablation studies, of which we report the results. In terms of downstream performance, mxbai-edge-colbert-v0 is a particularly capable small model, outperforming ColBERTv2 on common short-text benchmarks (BEIR) and representing a large step forward in long-context tasks, with unprecedented efficiency.
PDF182December 21, 2025