Fantastische (kleine) Retrievers en hoe ze te trainen: mxbai-edge-colbert-v0 Technisch Rapport
Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report
October 16, 2025
Auteurs: Rikiya Takehi, Benjamin Clavié, Sean Lee, Aamir Shakir
cs.AI
Samenvatting
In dit werk introduceren we mxbai-edge-colbert-v0-modellen, met twee verschillende parameteraantallen: 17M en 32M. Als onderdeel van ons onderzoek voeren we talrijke experimenten uit om retrievalsystemen en late-interactiemodellen te verbeteren, die we van plan zijn te destilleren in kleinere modellen als proof-of-concepts. Ons uiteindelijke doel is om retrieval op alle schalen te ondersteunen, van grootschalige retrieval in de cloud tot modellen die lokaal op elk apparaat kunnen draaien. mxbai-edge-colbert-v0 is een model dat we hopen te gebruiken als een solide basis voor alle toekomstige experimenten, en dat de eerste versie vertegenwoordigt van een lange reeks kleine proof-of-concepts. Tijdens de ontwikkeling van mxbai-edge-colbert-v0 hebben we meerdere ablatiestudies uitgevoerd, waarvan we de resultaten rapporteren. Wat betreft downstreamprestaties is mxbai-edge-colbert-v0 een bijzonder capabel klein model, dat ColBERTv2 overtreft op gangbare kortetekstbenchmarks (BEIR) en een grote stap voorwaarts betekent in langcontexttaken, met een ongekende efficiëntie.
English
In this work, we introduce mxbai-edge-colbert-v0 models, at two different
parameter counts: 17M and 32M. As part of our research, we conduct numerous
experiments to improve retrieval and late-interaction models, which we intend
to distill into smaller models as proof-of-concepts. Our ultimate aim is to
support retrieval at all scales, from large-scale retrieval which lives in the
cloud to models that can run locally, on any device. mxbai-edge-colbert-v0 is a
model that we hope will serve as a solid foundation backbone for all future
experiments, representing the first version of a long series of small
proof-of-concepts. As part of the development of mxbai-edge-colbert-v0, we
conducted multiple ablation studies, of which we report the results. In terms
of downstream performance, mxbai-edge-colbert-v0 is a particularly capable
small model, outperforming ColBERTv2 on common short-text benchmarks (BEIR) and
representing a large step forward in long-context tasks, with unprecedented
efficiency.