Fantásticos (pequeños) Retrievers y cómo entrenarlos: Informe técnico de mxbai-edge-colbert-v0
Fantastic (small) Retrievers and How to Train Them: mxbai-edge-colbert-v0 Tech Report
October 16, 2025
Autores: Rikiya Takehi, Benjamin Clavié, Sean Lee, Aamir Shakir
cs.AI
Resumen
En este trabajo, presentamos los modelos mxbai-edge-colbert-v0, con dos recuentos de parámetros diferentes: 17M y 32M. Como parte de nuestra investigación, realizamos numerosos experimentos para mejorar los modelos de recuperación e interacción tardía, con el objetivo de destilarlos en modelos más pequeños como pruebas de concepto. Nuestro objetivo final es apoyar la recuperación a todas las escalas, desde la recuperación a gran escala que reside en la nube hasta modelos que pueden ejecutarse localmente en cualquier dispositivo. mxbai-edge-colbert-v0 es un modelo que esperamos sirva como una base sólida para todos los experimentos futuros, representando la primera versión de una larga serie de pequeñas pruebas de concepto. Como parte del desarrollo de mxbai-edge-colbert-v0, llevamos a cabo múltiples estudios de ablación, cuyos resultados reportamos. En términos de rendimiento en tareas posteriores, mxbai-edge-colbert-v0 es un modelo pequeño particularmente capaz, superando a ColBERTv2 en puntos de referencia comunes de texto corto (BEIR) y representando un gran avance en tareas de contexto largo, con una eficiencia sin precedentes.
English
In this work, we introduce mxbai-edge-colbert-v0 models, at two different
parameter counts: 17M and 32M. As part of our research, we conduct numerous
experiments to improve retrieval and late-interaction models, which we intend
to distill into smaller models as proof-of-concepts. Our ultimate aim is to
support retrieval at all scales, from large-scale retrieval which lives in the
cloud to models that can run locally, on any device. mxbai-edge-colbert-v0 is a
model that we hope will serve as a solid foundation backbone for all future
experiments, representing the first version of a long series of small
proof-of-concepts. As part of the development of mxbai-edge-colbert-v0, we
conducted multiple ablation studies, of which we report the results. In terms
of downstream performance, mxbai-edge-colbert-v0 is a particularly capable
small model, outperforming ColBERTv2 on common short-text benchmarks (BEIR) and
representing a large step forward in long-context tasks, with unprecedented
efficiency.