ChatPaper.aiChatPaper

E^2Rank: Tu incrustación de texto también puede ser un reranker listwise eficaz y eficiente

E^2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker

October 26, 2025
Autores: Qi Liu, Yanzhao Zhang, Mingxin Li, Dingkun Long, Pengjun Xie, Jiaxin Mao
cs.AI

Resumen

Los modelos de incrustación de texto constituyen un componente fundamental en las aplicaciones de búsqueda del mundo real. Al mapear consultas y documentos en un espacio de incrustación compartido, ofrecen un rendimiento de recuperación competitivo con alta eficiencia. Sin embargo, su fidelidad de clasificación sigue siendo limitada en comparación con los rerankers especializados, particularmente los rerankers listwise basados en LLM recientes, que capturan interacciones granulares consulta-documento y documento-documento. En este artículo, proponemos un marco unificado simple pero efectivo llamado E^2Rank (que significa Efficient Embedding-based Ranking y también Embedding-to-Rank), el cual extiende un único modelo de incrustación de texto para realizar tanto recuperación de alta calidad como reranking listwise mediante entrenamiento continuo bajo un objetivo de clasificación listwise, logrando así una fuerte efectividad con una eficiencia notable. Al utilizar la similitud coseno entre las incrustaciones de consulta y documento como función de clasificación unificada, el prompt de clasificación listwise, construido a partir de la consulta original y sus documentos candidatos, sirve como una consulta mejorada enriquecida con señales de los documentos top-K, similar a la retroalimentación por pseudorrelevancia (PRF) en modelos de recuperación tradicionales. Este diseño preserva la eficiencia y calidad representacional del modelo de incrustación base mientras mejora significativamente su rendimiento de reranking. Empíricamente, E^2Rank alcanza resultados state-of-the-art en el benchmark de reranking BEIR y demuestra un rendimiento competitivo en el benchmark de razonamiento intensivo BRIGHT, con una latencia de reranking muy baja. También mostramos que el proceso de entrenamiento en clasificación mejora el rendimiento de incrustación en el benchmark MTEB. Nuestros hallazgos indican que un único modelo de incrustación puede unificar efectivamente la recuperación y el reranking, ofreciendo tanto eficiencia computacional como precisión de clasificación competitiva.
English
Text embedding models serve as a fundamental component in real-world search applications. By mapping queries and documents into a shared embedding space, they deliver competitive retrieval performance with high efficiency. However, their ranking fidelity remains limited compared to dedicated rerankers, especially recent LLM-based listwise rerankers, which capture fine-grained query-document and document-document interactions. In this paper, we propose a simple yet effective unified framework E^2Rank, means Efficient Embedding-based Ranking (also means Embedding-to-Rank), which extends a single text embedding model to perform both high-quality retrieval and listwise reranking through continued training under a listwise ranking objective, thereby achieving strong effectiveness with remarkable efficiency. By applying cosine similarity between the query and document embeddings as a unified ranking function, the listwise ranking prompt, which is constructed from the original query and its candidate documents, serves as an enhanced query enriched with signals from the top-K documents, akin to pseudo-relevance feedback (PRF) in traditional retrieval models. This design preserves the efficiency and representational quality of the base embedding model while significantly improving its reranking performance. Empirically, E^2Rank achieves state-of-the-art results on the BEIR reranking benchmark and demonstrates competitive performance on the reasoning-intensive BRIGHT benchmark, with very low reranking latency. We also show that the ranking training process improves embedding performance on the MTEB benchmark. Our findings indicate that a single embedding model can effectively unify retrieval and reranking, offering both computational efficiency and competitive ranking accuracy.
PDF311December 31, 2025