Entrenadores de Texto con Incrustaciones como Aprendices de Pocas Muestras

Resumen

Los grandes modelos de lenguaje (LLMs) con arquitecturas de solo decodificador demuestran notables capacidades de aprendizaje en contexto (ICL). Esta característica les permite manejar de manera efectiva tanto tareas familiares como novedosas al utilizar ejemplos proporcionados dentro de su contexto de entrada. Reconociendo el potencial de esta capacidad, proponemos aprovechar la característica de ICL en los LLMs para mejorar el proceso de generación de incrustaciones de texto. Con este fin, presentamos un modelo novedoso bge-en-icl, que emplea ejemplos de pocos disparos para producir incrustaciones de texto de alta calidad. Nuestro enfoque integra ejemplos relacionados con la tarea directamente en el lado de la consulta, lo que resulta en mejoras significativas en diversas tareas. Además, hemos investigado cómo utilizar de manera efectiva los LLMs como modelos de incrustación, incluyendo varios mecanismos de atención, métodos de agrupación, etc. Nuestros hallazgos sugieren que mantener el marco original a menudo produce los mejores resultados, subrayando que la simplicidad es lo mejor. Los resultados experimentales en los bancos de pruebas MTEB y AIR-Bench demuestran que nuestro enfoque establece un nuevo rendimiento de última generación (SOTA). Nuestro modelo, código y conjunto de datos están disponibles de forma gratuita en https://github.com/FlagOpen/FlagEmbedding.

English

Large language models (LLMs) with decoder-only architectures demonstrate remarkable in-context learning (ICL) capabilities. This feature enables them to effectively handle both familiar and novel tasks by utilizing examples provided within their input context. Recognizing the potential of this capability, we propose leveraging the ICL feature in LLMs to enhance the process of text embedding generation. To this end, we introduce a novel model bge-en-icl, which employs few-shot examples to produce high-quality text embeddings. Our approach integrates task-related examples directly into the query side, resulting in significant improvements across various tasks. Additionally, we have investigated how to effectively utilize LLMs as embedding models, including various attention mechanisms, pooling methods, etc. Our findings suggest that retaining the original framework often yields the best results, underscoring that simplicity is best. Experimental results on the MTEB and AIR-Bench benchmarks demonstrate that our approach sets new state-of-the-art (SOTA) performance. Our model, code and dataset are freely available at https://github.com/FlagOpen/FlagEmbedding .