Reordenamiento de Eficiencia-Efectividad en FLOPs para Reordenadores Basados en Modelos de Lenguaje Grande
Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers
July 8, 2025
Autores: Zhiyuan Peng, Ting-ruen Wei, Tingyu Song, Yilun Zhao, Yi Fang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se han aplicado recientemente a tareas de reordenamiento en la recuperación de información, logrando un rendimiento sólido. Sin embargo, sus altas demandas computacionales a menudo dificultan su implementación práctica. Los estudios existentes evalúan la eficiencia de los reordenadores basados en LLMs utilizando métricas indirectas como la latencia, el número de pasadas hacia adelante, los tokens de entrada y los tokens de salida. No obstante, estas métricas dependen del hardware y de las decisiones en tiempo de ejecución (por ejemplo, si se ejecuta en paralelo o no, el tamaño del lote, etc.), y a menudo no tienen en cuenta el tamaño del modelo, lo que dificulta su interpretación y oscurece la evaluación del equilibrio entre eficiencia y efectividad. Para abordar este problema, proponemos E2R-FLOPs para reordenadores basados en LLMs: métricas de clasificación por PetaFLOP (RPP) para la relevancia por cálculo y consultas por PetaFLOP (QPP) para un rendimiento independiente del hardware. Acompañando estas nuevas métricas, se construye un estimador de FLOPs interpretable para estimar los FLOPs de un reordenador basado en LLMs incluso sin realizar experimentos. Basándonos en las métricas propuestas, llevamos a cabo experimentos exhaustivos para evaluar una amplia gama de reordenadores basados en LLMs con diferentes arquitecturas, estudiando el equilibrio entre eficiencia y efectividad y llamando la atención de la comunidad investigadora sobre este tema.
English
Large Language Models (LLMs) have recently been applied to reranking tasks in
information retrieval, achieving strong performance. However, their high
computational demands often hinder practical deployment. Existing studies
evaluate the efficiency of LLM-based rerankers using proxy metrics such as
latency, the number of forward passes, input tokens, and output tokens.
However, these metrics depend on hardware and running-time choices (\eg
parallel or not, batch size, etc), and often fail to account for model size,
making it difficult to interpret and obscuring the evaluation of the
efficiency-effectiveness tradeoff. To address this issue, we propose
E2R-FLOPs, for LLM-based rerankers: ranking metrics per
PetaFLOP (RPP) for relevance per compute and queries per PetaFLOP (QPP) for
hardware-agnostic throughput. Companied with the new metrics, an interpretable
FLOPs estimator is built to estimate the FLOPs of an LLM-based reranker even
without running any experiments. Based on the proposed metrics, we conduct
comprehensive experiments to evaluate a wide range of LLM-based rerankers with
different architecture, studying the efficiency-effectiveness trade-off and
bringing this issue to the attention of the research community.