Valutazione comparativa dei modelli di information retrieval su compiti di recupero complessi
Benchmarking Information Retrieval Models on Complex Retrieval Tasks
September 8, 2025
Autori: Julian Killingback, Hamed Zamani
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono strumenti incredibili e versatili per attività basate sul testo che hanno abilitato innumerevoli applicazioni precedentemente inimmaginabili. Al contrario, i modelli di retrieval non hanno ancora visto emergere modelli general-purpose altrettanto capaci. Per raggiungere questo obiettivo, i modelli di retrieval devono essere in grado di eseguire compiti di retrieval complessi, in cui le query contengono più parti, vincoli o requisiti espressi in linguaggio naturale. Questi compiti rappresentano una progressione naturale rispetto alle query semplici e monodimensionali utilizzate nella stragrande maggioranza degli insiemi di valutazione esistenti e comunemente usati. Le query complesse sorgono naturalmente man mano che le persone si aspettano che i sistemi di ricerca gestiscano richieste di informazioni più specifiche e spesso ambiziose, come dimostrato dall'uso che le persone fanno dei sistemi informativi basati su LLM. Nonostante il crescente desiderio che i modelli di retrieval espandano le loro capacità nei compiti di retrieval complessi, esistono risorse limitate per valutare l'abilità dei modelli di retrieval su un insieme completo di compiti complessi e diversificati. Le poche risorse esistenti presentano un ambito limitato e spesso mancano di impostazioni realistiche, rendendo difficile conoscere le vere capacità dei modelli di retrieval nei compiti di retrieval complessi del mondo reale. Per affrontare questa carenza e stimolare l'innovazione nei modelli di retrieval di prossima generazione, costruiamo un insieme diversificato e realistico di compiti di retrieval complessi e valutiamo un insieme rappresentativo di modelli di retrieval all'avanguardia. Inoltre, esploriamo l'impatto dell'espansione e della riscrittura delle query basate su LLM sulla qualità del retrieval. I nostri risultati mostrano che anche i migliori modelli faticano a produrre risultati di retrieval di alta qualità, con un nDCG@10 medio massimo di soli 0,346 e un R@100 di soli 0,587 su tutti i compiti. Sebbene l'aumentazione basata su LLM possa aiutare i modelli più deboli, il modello più forte ha una riduzione delle prestazioni su tutte le metriche con tutte le tecniche di riscrittura.
English
Large language models (LLMs) are incredible and versatile tools for
text-based tasks that have enabled countless, previously unimaginable,
applications. Retrieval models, in contrast, have not yet seen such capable
general-purpose models emerge. To achieve this goal, retrieval models must be
able to perform complex retrieval tasks, where queries contain multiple parts,
constraints, or requirements in natural language. These tasks represent a
natural progression from the simple, single-aspect queries that are used in the
vast majority of existing, commonly used evaluation sets. Complex queries
naturally arise as people expect search systems to handle more specific and
often ambitious information requests, as is demonstrated by how people use
LLM-based information systems. Despite the growing desire for retrieval models
to expand their capabilities in complex retrieval tasks, there exist limited
resources to assess the ability of retrieval models on a comprehensive set of
diverse complex tasks. The few resources that do exist feature a limited scope
and often lack realistic settings making it hard to know the true capabilities
of retrieval models on complex real-world retrieval tasks. To address this
shortcoming and spur innovation in next-generation retrieval models, we
construct a diverse and realistic set of complex retrieval tasks and benchmark
a representative set of state-of-the-art retrieval models. Additionally, we
explore the impact of LLM-based query expansion and rewriting on retrieval
quality. Our results show that even the best models struggle to produce
high-quality retrieval results with the highest average nDCG@10 of only 0.346
and R@100 of only 0.587 across all tasks. Although LLM augmentation can help
weaker models, the strongest model has decreased performance across all metrics
with all rewriting techniques.