Fantásticos (pequeños) Retrievers y cómo entrenarlos: Informe técnico de mxbai-edge-colbert-v0

Resumen

En este trabajo, presentamos los modelos mxbai-edge-colbert-v0, con dos recuentos de parámetros diferentes: 17M y 32M. Como parte de nuestra investigación, realizamos numerosos experimentos para mejorar los modelos de recuperación e interacción tardía, con el objetivo de destilarlos en modelos más pequeños como pruebas de concepto. Nuestro objetivo final es apoyar la recuperación a todas las escalas, desde la recuperación a gran escala que reside en la nube hasta modelos que pueden ejecutarse localmente en cualquier dispositivo. mxbai-edge-colbert-v0 es un modelo que esperamos sirva como una base sólida para todos los experimentos futuros, representando la primera versión de una larga serie de pequeñas pruebas de concepto. Como parte del desarrollo de mxbai-edge-colbert-v0, llevamos a cabo múltiples estudios de ablación, cuyos resultados reportamos. En términos de rendimiento en tareas posteriores, mxbai-edge-colbert-v0 es un modelo pequeño particularmente capaz, superando a ColBERTv2 en puntos de referencia comunes de texto corto (BEIR) y representando un gran avance en tareas de contexto largo, con una eficiencia sin precedentes.

English

In this work, we introduce mxbai-edge-colbert-v0 models, at two different parameter counts: 17M and 32M. As part of our research, we conduct numerous experiments to improve retrieval and late-interaction models, which we intend to distill into smaller models as proof-of-concepts. Our ultimate aim is to support retrieval at all scales, from large-scale retrieval which lives in the cloud to models that can run locally, on any device. mxbai-edge-colbert-v0 is a model that we hope will serve as a solid foundation backbone for all future experiments, representing the first version of a long series of small proof-of-concepts. As part of the development of mxbai-edge-colbert-v0, we conducted multiple ablation studies, of which we report the results. In terms of downstream performance, mxbai-edge-colbert-v0 is a particularly capable small model, outperforming ColBERTv2 on common short-text benchmarks (BEIR) and representing a large step forward in long-context tasks, with unprecedented efficiency.