ChatPaper.aiChatPaper

Эффективность-результативность переранжирования FLOPs для переранжировщиков на основе LLM

Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers

July 8, 2025
Авторы: Zhiyuan Peng, Ting-ruen Wei, Tingyu Song, Yilun Zhao, Yi Fang
cs.AI

Аннотация

Крупные языковые модели (LLM) в последнее время применяются для задач переранжирования в информационном поиске, демонстрируя высокую производительность. Однако их значительные вычислительные затраты часто препятствуют практическому внедрению. Существующие исследования оценивают эффективность переранжировщиков на основе LLM с использованием косвенных метрик, таких как задержка, количество прямых проходов, входных и выходных токенов. Однако эти метрики зависят от аппаратного обеспечения и выбора параметров выполнения (например, параллельное выполнение или нет, размер пакета и т.д.), а также часто не учитывают размер модели, что затрудняет интерпретацию и скрывает оценку компромисса между эффективностью и производительностью. Для решения этой проблемы мы предлагаем E2R-FLOPs для переранжировщиков на основе LLM: метрики ранжирования на петафлопс (RPP) для оценки релевантности на единицу вычислений и запросов на петафлопс (QPP) для аппаратно-независимой пропускной способности. Вместе с новыми метриками разработан интерпретируемый оценщик FLOPs, который позволяет оценить количество FLOPs для переранжировщика на основе LLM даже без проведения экспериментов. На основе предложенных метрик мы проводим комплексные эксперименты для оценки широкого спектра переранжировщиков на основе LLM с различной архитектурой, изучая компромисс между эффективностью и производительностью и привлекая внимание исследовательского сообщества к этой проблеме.
English
Large Language Models (LLMs) have recently been applied to reranking tasks in information retrieval, achieving strong performance. However, their high computational demands often hinder practical deployment. Existing studies evaluate the efficiency of LLM-based rerankers using proxy metrics such as latency, the number of forward passes, input tokens, and output tokens. However, these metrics depend on hardware and running-time choices (\eg parallel or not, batch size, etc), and often fail to account for model size, making it difficult to interpret and obscuring the evaluation of the efficiency-effectiveness tradeoff. To address this issue, we propose E2R-FLOPs, for LLM-based rerankers: ranking metrics per PetaFLOP (RPP) for relevance per compute and queries per PetaFLOP (QPP) for hardware-agnostic throughput. Companied with the new metrics, an interpretable FLOPs estimator is built to estimate the FLOPs of an LLM-based reranker even without running any experiments. Based on the proposed metrics, we conduct comprehensive experiments to evaluate a wide range of LLM-based rerankers with different architecture, studying the efficiency-effectiveness trade-off and bringing this issue to the attention of the research community.
PDF131July 9, 2025