ChatPaper.aiChatPaper

Valutazione comparativa dei modelli di information retrieval su compiti di recupero complessi

Benchmarking Information Retrieval Models on Complex Retrieval Tasks

September 8, 2025
Autori: Julian Killingback, Hamed Zamani
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono strumenti incredibili e versatili per attività basate sul testo che hanno abilitato innumerevoli applicazioni precedentemente inimmaginabili. Al contrario, i modelli di retrieval non hanno ancora visto emergere modelli general-purpose altrettanto capaci. Per raggiungere questo obiettivo, i modelli di retrieval devono essere in grado di eseguire compiti di retrieval complessi, in cui le query contengono più parti, vincoli o requisiti espressi in linguaggio naturale. Questi compiti rappresentano una progressione naturale rispetto alle query semplici e monodimensionali utilizzate nella stragrande maggioranza degli insiemi di valutazione esistenti e comunemente usati. Le query complesse sorgono naturalmente man mano che le persone si aspettano che i sistemi di ricerca gestiscano richieste di informazioni più specifiche e spesso ambiziose, come dimostrato dall'uso che le persone fanno dei sistemi informativi basati su LLM. Nonostante il crescente desiderio che i modelli di retrieval espandano le loro capacità nei compiti di retrieval complessi, esistono risorse limitate per valutare l'abilità dei modelli di retrieval su un insieme completo di compiti complessi e diversificati. Le poche risorse esistenti presentano un ambito limitato e spesso mancano di impostazioni realistiche, rendendo difficile conoscere le vere capacità dei modelli di retrieval nei compiti di retrieval complessi del mondo reale. Per affrontare questa carenza e stimolare l'innovazione nei modelli di retrieval di prossima generazione, costruiamo un insieme diversificato e realistico di compiti di retrieval complessi e valutiamo un insieme rappresentativo di modelli di retrieval all'avanguardia. Inoltre, esploriamo l'impatto dell'espansione e della riscrittura delle query basate su LLM sulla qualità del retrieval. I nostri risultati mostrano che anche i migliori modelli faticano a produrre risultati di retrieval di alta qualità, con un nDCG@10 medio massimo di soli 0,346 e un R@100 di soli 0,587 su tutti i compiti. Sebbene l'aumentazione basata su LLM possa aiutare i modelli più deboli, il modello più forte ha una riduzione delle prestazioni su tutte le metriche con tutte le tecniche di riscrittura.
English
Large language models (LLMs) are incredible and versatile tools for text-based tasks that have enabled countless, previously unimaginable, applications. Retrieval models, in contrast, have not yet seen such capable general-purpose models emerge. To achieve this goal, retrieval models must be able to perform complex retrieval tasks, where queries contain multiple parts, constraints, or requirements in natural language. These tasks represent a natural progression from the simple, single-aspect queries that are used in the vast majority of existing, commonly used evaluation sets. Complex queries naturally arise as people expect search systems to handle more specific and often ambitious information requests, as is demonstrated by how people use LLM-based information systems. Despite the growing desire for retrieval models to expand their capabilities in complex retrieval tasks, there exist limited resources to assess the ability of retrieval models on a comprehensive set of diverse complex tasks. The few resources that do exist feature a limited scope and often lack realistic settings making it hard to know the true capabilities of retrieval models on complex real-world retrieval tasks. To address this shortcoming and spur innovation in next-generation retrieval models, we construct a diverse and realistic set of complex retrieval tasks and benchmark a representative set of state-of-the-art retrieval models. Additionally, we explore the impact of LLM-based query expansion and rewriting on retrieval quality. Our results show that even the best models struggle to produce high-quality retrieval results with the highest average nDCG@10 of only 0.346 and R@100 of only 0.587 across all tasks. Although LLM augmentation can help weaker models, the strongest model has decreased performance across all metrics with all rewriting techniques.
PDF32September 10, 2025