Rank-without-GPT: Construcción de Reordenadores Listwise Independientes de GPT en Modelos de Lenguaje de Gran Escala de Código Abierto

Resumen

Los rerankers listwise basados en grandes modelos de lenguaje (LLM) representan el estado del arte en enfoques zero-shot. Sin embargo, los trabajos actuales en esta dirección dependen exclusivamente de los modelos GPT, lo que los convierte en un punto único de fallo para la reproducibilidad científica. Además, esto plantea la preocupación de que los hallazgos de investigación actuales solo sean válidos para los modelos GPT y no para los LLM en general. En este trabajo, eliminamos este prerrequisito y construimos, por primera vez, rerankers listwise efectivos sin ninguna forma de dependencia de GPT. Nuestros experimentos de recuperación de pasajes muestran que nuestro mejor reranker listwise supera a los rerankers listwise basados en GPT-3.5 en un 13% y alcanza un 97% de la efectividad de aquellos construidos sobre GPT-4. Nuestros resultados también indican que los conjuntos de datos de entrenamiento existentes, que fueron construidos específicamente para ranking pointwise, son insuficientes para desarrollar este tipo de rerankers listwise. En su lugar, se requieren y son cruciales datos de alta calidad para ranking listwise, lo que subraya la necesidad de seguir trabajando en la creación de recursos de datos listwise anotados por humanos.

English

Listwise rerankers based on large language models (LLM) are the zero-shot state-of-the-art. However, current works in this direction all depend on the GPT models, making it a single point of failure in scientific reproducibility. Moreover, it raises the concern that the current research findings only hold for GPT models but not LLM in general. In this work, we lift this pre-condition and build for the first time effective listwise rerankers without any form of dependency on GPT. Our passage retrieval experiments show that our best list se reranker surpasses the listwise rerankers based on GPT-3.5 by 13% and achieves 97% effectiveness of the ones built on GPT-4. Our results also show that the existing training datasets, which were expressly constructed for pointwise ranking, are insufficient for building such listwise rerankers. Instead, high-quality listwise ranking data is required and crucial, calling for further work on building human-annotated listwise data resources.

Rank-without-GPT: Construcción de Reordenadores Listwise Independientes de GPT en Modelos de Lenguaje de Gran Escala de Código Abierto

Rank-without-GPT: Building GPT-Independent Listwise Rerankers on Open-Source Large Language Models

Resumen

Support