Fantastische (kleine) Retriever und wie man sie trainiert: mxbai-edge-colbert-v0 Technischer Bericht
Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report
October 16, 2025
papers.authors: Rikiya Takehi, Benjamin Clavié, Sean Lee, Aamir Shakir
cs.AI
papers.abstract
In dieser Arbeit stellen wir die mxbai-edge-colbert-v0-Modelle in zwei verschiedenen Parametergrößen vor: 17M und 32M. Im Rahmen unserer Forschung führen wir zahlreiche Experimente durch, um Retrieval- und Late-Interaction-Modelle zu verbessern, die wir in kleinere Modelle destillieren möchten, um Proof-of-Concepts zu erstellen. Unser ultimatives Ziel ist es, Retrieval auf allen Skalen zu unterstützen, von großskaligem Retrieval in der Cloud bis hin zu Modellen, die lokal auf jedem Gerät ausgeführt werden können. mxbai-edge-colbert-v0 ist ein Modell, das wir als solide Grundlage für alle zukünftigen Experimente betrachten und das die erste Version einer langen Reihe kleiner Proof-of-Concepts darstellt. Im Rahmen der Entwicklung von mxbai-edge-colbert-v0 haben wir mehrere Ablationsstudien durchgeführt, deren Ergebnisse wir hier berichten. In Bezug auf die Downstream-Leistung ist mxbai-edge-colbert-v0 ein besonders leistungsfähiges kleines Modell, das ColBERTv2 auf gängigen Kurztext-Benchmarks (BEIR) übertrifft und einen großen Fortschritt bei Langkontext-Aufgaben mit bisher unerreichter Effizienz darstellt.
English
In this work, we introduce mxbai-edge-colbert-v0 models, at two different
parameter counts: 17M and 32M. As part of our research, we conduct numerous
experiments to improve retrieval and late-interaction models, which we intend
to distill into smaller models as proof-of-concepts. Our ultimate aim is to
support retrieval at all scales, from large-scale retrieval which lives in the
cloud to models that can run locally, on any device. mxbai-edge-colbert-v0 is a
model that we hope will serve as a solid foundation backbone for all future
experiments, representing the first version of a long series of small
proof-of-concepts. As part of the development of mxbai-edge-colbert-v0, we
conducted multiple ablation studies, of which we report the results. In terms
of downstream performance, mxbai-edge-colbert-v0 is a particularly capable
small model, outperforming ColBERTv2 on common short-text benchmarks (BEIR) and
representing a large step forward in long-context tasks, with unprecedented
efficiency.