Entrenadores de Texto con Incrustaciones como Aprendices de Pocas Muestras
Making Text Embedders Few-Shot Learners
September 24, 2024
Autores: Chaofan Li, MingHao Qin, Shitao Xiao, Jianlyu Chen, Kun Luo, Yingxia Shao, Defu Lian, Zheng Liu
cs.AI
Resumen
Los grandes modelos de lenguaje (LLMs) con arquitecturas de solo decodificador demuestran notables capacidades de aprendizaje en contexto (ICL). Esta característica les permite manejar de manera efectiva tanto tareas familiares como novedosas al utilizar ejemplos proporcionados dentro de su contexto de entrada. Reconociendo el potencial de esta capacidad, proponemos aprovechar la característica de ICL en los LLMs para mejorar el proceso de generación de incrustaciones de texto. Con este fin, presentamos un modelo novedoso bge-en-icl, que emplea ejemplos de pocos disparos para producir incrustaciones de texto de alta calidad. Nuestro enfoque integra ejemplos relacionados con la tarea directamente en el lado de la consulta, lo que resulta en mejoras significativas en diversas tareas. Además, hemos investigado cómo utilizar de manera efectiva los LLMs como modelos de incrustación, incluyendo varios mecanismos de atención, métodos de agrupación, etc. Nuestros hallazgos sugieren que mantener el marco original a menudo produce los mejores resultados, subrayando que la simplicidad es lo mejor. Los resultados experimentales en los bancos de pruebas MTEB y AIR-Bench demuestran que nuestro enfoque establece un nuevo rendimiento de última generación (SOTA). Nuestro modelo, código y conjunto de datos están disponibles de forma gratuita en https://github.com/FlagOpen/FlagEmbedding.
English
Large language models (LLMs) with decoder-only architectures demonstrate
remarkable in-context learning (ICL) capabilities. This feature enables them to
effectively handle both familiar and novel tasks by utilizing examples provided
within their input context. Recognizing the potential of this capability, we
propose leveraging the ICL feature in LLMs to enhance the process of text
embedding generation. To this end, we introduce a novel model bge-en-icl, which
employs few-shot examples to produce high-quality text embeddings. Our approach
integrates task-related examples directly into the query side, resulting in
significant improvements across various tasks. Additionally, we have
investigated how to effectively utilize LLMs as embedding models, including
various attention mechanisms, pooling methods, etc. Our findings suggest that
retaining the original framework often yields the best results, underscoring
that simplicity is best. Experimental results on the MTEB and AIR-Bench
benchmarks demonstrate that our approach sets new state-of-the-art (SOTA)
performance. Our model, code and dataset are freely available at
https://github.com/FlagOpen/FlagEmbedding .Summary
AI-Generated Summary