Effizienz-Effektivität-Neuordnung von FLOPs für LLM-basierte Neuordner

papers.abstract

Große Sprachmodelle (LLMs) wurden kürzlich für Neubewertungsaufgaben in der Informationsrückgewinnung eingesetzt und erzielten dabei beachtliche Leistungen. Ihre hohen Rechenanforderungen erschweren jedoch oft den praktischen Einsatz. Bisherige Studien bewerten die Effizienz von LLM-basierten Neubewertern anhand von Proxy-Metriken wie Latenz, Anzahl der Vorwärtsdurchläufe, Eingabe-Tokens und Ausgabe-Tokens. Diese Metriken hängen jedoch von der Hardware und Laufzeitentscheidungen ab (z. B. parallel oder nicht, Batch-Größe usw.) und berücksichtigen oft nicht die Modellgröße, was die Interpretation erschwert und die Bewertung des Effizienz-Effektivitäts-Kompromisses verdeckt. Um dieses Problem zu lösen, schlagen wir E2R-FLOPs für LLM-basierte Neubewerter vor: Ranking-Metriken pro PetaFLOP (RPP) für Relevanz pro Rechenleistung und Anfragen pro PetaFLOP (QPP) für hardwareunabhängigen Durchsatz. Begleitet von diesen neuen Metriken wird ein interpretierbarer FLOPs-Schätzer entwickelt, um die FLOPs eines LLM-basierten Neubewerters auch ohne Durchführung von Experimenten zu schätzen. Basierend auf den vorgeschlagenen Metriken führen wir umfassende Experimente durch, um eine breite Palette von LLM-basierten Neubewertern mit unterschiedlichen Architekturen zu bewerten, den Effizienz-Effektivitäts-Kompromiss zu untersuchen und dieses Problem der Aufmerksamkeit der Forschungsgemeinschaft zu widmen.

English

Large Language Models (LLMs) have recently been applied to reranking tasks in information retrieval, achieving strong performance. However, their high computational demands often hinder practical deployment. Existing studies evaluate the efficiency of LLM-based rerankers using proxy metrics such as latency, the number of forward passes, input tokens, and output tokens. However, these metrics depend on hardware and running-time choices (\eg parallel or not, batch size, etc), and often fail to account for model size, making it difficult to interpret and obscuring the evaluation of the efficiency-effectiveness tradeoff. To address this issue, we propose E2R-FLOPs, for LLM-based rerankers: ranking metrics per PetaFLOP (RPP) for relevance per compute and queries per PetaFLOP (QPP) for hardware-agnostic throughput. Companied with the new metrics, an interpretable FLOPs estimator is built to estimate the FLOPs of an LLM-based reranker even without running any experiments. Based on the proposed metrics, we conduct comprehensive experiments to evaluate a wide range of LLM-based rerankers with different architecture, studying the efficiency-effectiveness trade-off and bringing this issue to the attention of the research community.

Effizienz-Effektivität-Neuordnung von FLOPs für LLM-basierte Neuordner

Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers

papers.abstract

Support