ChatPaper.aiChatPaper

Efficiëntie-Effectiviteit Herrangschikking FLOPs voor LLM-gebaseerde Herrangschikkers

Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers

July 8, 2025
Auteurs: Zhiyuan Peng, Ting-ruen Wei, Tingyu Song, Yilun Zhao, Yi Fang
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) zijn recentelijk toegepast op herrangschikkingstaken in informatiezoektoepassingen, waarbij ze sterke prestaties hebben geleverd. Hun hoge rekenkundige eisen vormen echter vaak een belemmering voor praktische inzet. Bestaande studies evalueren de efficiëntie van LLM-gebaseerde herrangschikkers met behulp van indirecte metrieken zoals latentie, het aantal voorwaartse passes, invoertokens en uitvoertokens. Deze metrieken zijn echter afhankelijk van hardware- en runtime-keuzes (bijv. parallel of niet, batchgrootte, enz.) en houden vaak geen rekening met de grootte van het model, wat het interpreteren bemoeilijkt en de evaluatie van de afweging tussen efficiëntie en effectiviteit vertroebelt. Om dit probleem aan te pakken, stellen we E2R-FLOPs voor voor LLM-gebaseerde herrangschikkers: rangschikkingsmetrieken per PetaFLOP (RPP) voor relevantie per rekenkracht en queries per PetaFLOP (QPP) voor hardware-onafhankelijke doorvoer. Samen met deze nieuwe metrieken is een interpreteerbare FLOPs-schatter ontwikkeld om de FLOPs van een LLM-gebaseerde herrangschikker te schatten, zelfs zonder experimenten uit te voeren. Op basis van de voorgestelde metrieken voeren we uitgebreide experimenten uit om een breed scala aan LLM-gebaseerde herrangschikkers met verschillende architecturen te evalueren, waarbij we de afweging tussen efficiëntie en effectiviteit bestuderen en deze kwestie onder de aandacht van de onderzoeksgemeenschap brengen.
English
Large Language Models (LLMs) have recently been applied to reranking tasks in information retrieval, achieving strong performance. However, their high computational demands often hinder practical deployment. Existing studies evaluate the efficiency of LLM-based rerankers using proxy metrics such as latency, the number of forward passes, input tokens, and output tokens. However, these metrics depend on hardware and running-time choices (\eg parallel or not, batch size, etc), and often fail to account for model size, making it difficult to interpret and obscuring the evaluation of the efficiency-effectiveness tradeoff. To address this issue, we propose E2R-FLOPs, for LLM-based rerankers: ranking metrics per PetaFLOP (RPP) for relevance per compute and queries per PetaFLOP (QPP) for hardware-agnostic throughput. Companied with the new metrics, an interpretable FLOPs estimator is built to estimate the FLOPs of an LLM-based reranker even without running any experiments. Based on the proposed metrics, we conduct comprehensive experiments to evaluate a wide range of LLM-based rerankers with different architecture, studying the efficiency-effectiveness trade-off and bringing this issue to the attention of the research community.
PDF131July 9, 2025