Effizienz-Effektivität-Neuordnung von FLOPs für LLM-basierte Neuordner
Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers
July 8, 2025
papers.authors: Zhiyuan Peng, Ting-ruen Wei, Tingyu Song, Yilun Zhao, Yi Fang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) wurden kürzlich für Neubewertungsaufgaben in der Informationsrückgewinnung eingesetzt und erzielten dabei beachtliche Leistungen. Ihre hohen Rechenanforderungen erschweren jedoch oft den praktischen Einsatz. Bisherige Studien bewerten die Effizienz von LLM-basierten Neubewertern anhand von Proxy-Metriken wie Latenz, Anzahl der Vorwärtsdurchläufe, Eingabe-Tokens und Ausgabe-Tokens. Diese Metriken hängen jedoch von der Hardware und Laufzeitentscheidungen ab (z. B. parallel oder nicht, Batch-Größe usw.) und berücksichtigen oft nicht die Modellgröße, was die Interpretation erschwert und die Bewertung des Effizienz-Effektivitäts-Kompromisses verdeckt. Um dieses Problem zu lösen, schlagen wir E2R-FLOPs für LLM-basierte Neubewerter vor: Ranking-Metriken pro PetaFLOP (RPP) für Relevanz pro Rechenleistung und Anfragen pro PetaFLOP (QPP) für hardwareunabhängigen Durchsatz. Begleitet von diesen neuen Metriken wird ein interpretierbarer FLOPs-Schätzer entwickelt, um die FLOPs eines LLM-basierten Neubewerters auch ohne Durchführung von Experimenten zu schätzen. Basierend auf den vorgeschlagenen Metriken führen wir umfassende Experimente durch, um eine breite Palette von LLM-basierten Neubewertern mit unterschiedlichen Architekturen zu bewerten, den Effizienz-Effektivitäts-Kompromiss zu untersuchen und dieses Problem der Aufmerksamkeit der Forschungsgemeinschaft zu widmen.
English
Large Language Models (LLMs) have recently been applied to reranking tasks in
information retrieval, achieving strong performance. However, their high
computational demands often hinder practical deployment. Existing studies
evaluate the efficiency of LLM-based rerankers using proxy metrics such as
latency, the number of forward passes, input tokens, and output tokens.
However, these metrics depend on hardware and running-time choices (\eg
parallel or not, batch size, etc), and often fail to account for model size,
making it difficult to interpret and obscuring the evaluation of the
efficiency-effectiveness tradeoff. To address this issue, we propose
E2R-FLOPs, for LLM-based rerankers: ranking metrics per
PetaFLOP (RPP) for relevance per compute and queries per PetaFLOP (QPP) for
hardware-agnostic throughput. Companied with the new metrics, an interpretable
FLOPs estimator is built to estimate the FLOPs of an LLM-based reranker even
without running any experiments. Based on the proposed metrics, we conduct
comprehensive experiments to evaluate a wide range of LLM-based rerankers with
different architecture, studying the efficiency-effectiveness trade-off and
bringing this issue to the attention of the research community.