Reclassificação de Eficiência-Efetividade em FLOPs para Reclassificadores Baseados em LLM
Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers
July 8, 2025
Autores: Zhiyuan Peng, Ting-ruen Wei, Tingyu Song, Yilun Zhao, Yi Fang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm sido recentemente aplicados a tarefas de reranking em recuperação de informação, alcançando desempenho robusto. No entanto, suas altas demandas computacionais frequentemente dificultam a implantação prática. Estudos existentes avaliam a eficiência de rerankers baseados em LLMs usando métricas substitutas, como latência, número de passagens diretas, tokens de entrada e tokens de saída. Contudo, essas métricas dependem de escolhas de hardware e de tempo de execução (\eg, paralelização ou não, tamanho do lote, etc.), e muitas vezes não consideram o tamanho do modelo, dificultando a interpretação e obscurecendo a avaliação da relação entre eficiência e efetividade. Para abordar essa questão, propomos o E2R-FLOPs para rerankers baseados em LLMs: métricas de ranking por PetaFLOP (RPP) para relevância por computação e consultas por PetaFLOP (QPP) para taxa de transferência independente de hardware. Acompanhando as novas métricas, um estimador de FLOPs interpretável é construído para estimar os FLOPs de um reranker baseado em LLM mesmo sem a execução de experimentos. Com base nas métricas propostas, conduzimos experimentos abrangentes para avaliar uma ampla gama de rerankers baseados em LLMs com diferentes arquiteturas, estudando a relação entre eficiência e efetividade e trazendo essa questão à atenção da comunidade de pesquisa.
English
Large Language Models (LLMs) have recently been applied to reranking tasks in
information retrieval, achieving strong performance. However, their high
computational demands often hinder practical deployment. Existing studies
evaluate the efficiency of LLM-based rerankers using proxy metrics such as
latency, the number of forward passes, input tokens, and output tokens.
However, these metrics depend on hardware and running-time choices (\eg
parallel or not, batch size, etc), and often fail to account for model size,
making it difficult to interpret and obscuring the evaluation of the
efficiency-effectiveness tradeoff. To address this issue, we propose
E2R-FLOPs, for LLM-based rerankers: ranking metrics per
PetaFLOP (RPP) for relevance per compute and queries per PetaFLOP (QPP) for
hardware-agnostic throughput. Companied with the new metrics, an interpretable
FLOPs estimator is built to estimate the FLOPs of an LLM-based reranker even
without running any experiments. Based on the proposed metrics, we conduct
comprehensive experiments to evaluate a wide range of LLM-based rerankers with
different architecture, studying the efficiency-effectiveness trade-off and
bringing this issue to the attention of the research community.