Creazione di Incorporatori di Testo Apprendisti Few-Shot

Abstract

I grandi modelli linguistici (LLM) con architetture basate solo sul decoder dimostrano notevoli capacità di apprendimento contestuale (ICL). Questa caratteristica consente loro di gestire efficacemente sia compiti familiari che nuovi utilizzando gli esempi forniti all'interno del loro contesto di input. Riconoscendo il potenziale di questa capacità, proponiamo di sfruttare la funzionalità ICL nei LLM per migliorare il processo di generazione dell'incorporamento del testo. A tal fine, presentiamo un modello innovativo bge-en-icl, che utilizza pochi esempi per produrre incorporamenti di testo di alta qualità. Il nostro approccio integra direttamente gli esempi correlati al compito nel lato della query, ottenendo significativi miglioramenti su vari compiti. Inoltre, abbiamo studiato come utilizzare efficacemente i LLM come modelli di incorporamento, inclusi vari meccanismi di attenzione, metodi di pooling, ecc. I nostri risultati suggeriscono che mantenere il framework originale spesso produce i migliori risultati, sottolineando che la semplicità è la migliore scelta. I risultati sperimentali sui benchmark MTEB e AIR-Bench dimostrano che il nostro approccio stabilisce nuove prestazioni all'avanguardia (SOTA). Il nostro modello, codice e dataset sono liberamente disponibili su https://github.com/FlagOpen/FlagEmbedding.

English

Large language models (LLMs) with decoder-only architectures demonstrate remarkable in-context learning (ICL) capabilities. This feature enables them to effectively handle both familiar and novel tasks by utilizing examples provided within their input context. Recognizing the potential of this capability, we propose leveraging the ICL feature in LLMs to enhance the process of text embedding generation. To this end, we introduce a novel model bge-en-icl, which employs few-shot examples to produce high-quality text embeddings. Our approach integrates task-related examples directly into the query side, resulting in significant improvements across various tasks. Additionally, we have investigated how to effectively utilize LLMs as embedding models, including various attention mechanisms, pooling methods, etc. Our findings suggest that retaining the original framework often yields the best results, underscoring that simplicity is best. Experimental results on the MTEB and AIR-Bench benchmarks demonstrate that our approach sets new state-of-the-art (SOTA) performance. Our model, code and dataset are freely available at https://github.com/FlagOpen/FlagEmbedding .

Creazione di Incorporatori di Testo Apprendisti Few-Shot

Making Text Embedders Few-Shot Learners

Abstract

Support