ChatPaper.aiChatPaper

Réorganisation FLOPs Efficacité-Efficience pour les Réorganisateurs basés sur LLM

Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers

July 8, 2025
papers.authors: Zhiyuan Peng, Ting-ruen Wei, Tingyu Song, Yilun Zhao, Yi Fang
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLMs) ont récemment été appliqués aux tâches de reranking en recherche d'information, obtenant des performances remarquables. Cependant, leurs exigences élevées en termes de calcul entravent souvent leur déploiement pratique. Les études existantes évaluent l'efficacité des rerankers basés sur les LLMs à l'aide de métriques indirectes telles que la latence, le nombre de passes avant, les tokens d'entrée et les tokens de sortie. Cependant, ces métriques dépendent du matériel et des choix d'exécution (par exemple, parallèle ou non, taille du lot, etc.), et ne prennent souvent pas en compte la taille du modèle, rendant difficile l'interprétation et obscurcissant l'évaluation du compromis efficacité-performance. Pour résoudre ce problème, nous proposons E2R-FLOPs pour les rerankers basés sur les LLMs : des métriques de ranking par PetaFLOP (RPP) pour la pertinence par calcul et des requêtes par PetaFLOP (QPP) pour un débit indépendant du matériel. Accompagné de ces nouvelles métriques, un estimateur de FLOPs interprétable est construit pour estimer les FLOPs d'un reranker basé sur un LLM sans même avoir besoin de réaliser des expériences. Sur la base des métriques proposées, nous menons des expériences approfondies pour évaluer un large éventail de rerankers basés sur les LLMs avec différentes architectures, étudiant le compromis efficacité-performance et attirant l'attention de la communauté de recherche sur cette question.
English
Large Language Models (LLMs) have recently been applied to reranking tasks in information retrieval, achieving strong performance. However, their high computational demands often hinder practical deployment. Existing studies evaluate the efficiency of LLM-based rerankers using proxy metrics such as latency, the number of forward passes, input tokens, and output tokens. However, these metrics depend on hardware and running-time choices (\eg parallel or not, batch size, etc), and often fail to account for model size, making it difficult to interpret and obscuring the evaluation of the efficiency-effectiveness tradeoff. To address this issue, we propose E2R-FLOPs, for LLM-based rerankers: ranking metrics per PetaFLOP (RPP) for relevance per compute and queries per PetaFLOP (QPP) for hardware-agnostic throughput. Companied with the new metrics, an interpretable FLOPs estimator is built to estimate the FLOPs of an LLM-based reranker even without running any experiments. Based on the proposed metrics, we conduct comprehensive experiments to evaluate a wide range of LLM-based rerankers with different architecture, studying the efficiency-effectiveness trade-off and bringing this issue to the attention of the research community.
PDF131July 9, 2025