Résumé d'une botte de foin : Un défi pour les LLM à contexte étendu et les systÚmes RAGSummary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
Les LLM et les systĂšmes RAG sont dĂ©sormais capables de gĂ©rer des millions de tokens d'entrĂ©e ou plus. Cependant, Ă©valuer la qualitĂ© de sortie de tels systĂšmes sur des tĂąches Ă contexte long reste un dĂ©fi, car des tĂąches comme Needle-in-a-Haystack manquent de complexitĂ©. Dans ce travail, nous soutenons que la synthĂšse peut jouer un rĂŽle central dans une telle Ă©valuation. Nous concevons une procĂ©dure pour synthĂ©tiser des "Haystacks" de documents, en veillant Ă ce que des insights spĂ©cifiques se rĂ©pĂštent Ă travers les documents. La tĂąche "Summary of a Haystack" (SummHay) exige alors qu'un systĂšme traite le Haystack et gĂ©nĂšre, Ă partir d'une requĂȘte, un rĂ©sumĂ© qui identifie les insights pertinents et cite prĂ©cisĂ©ment les documents sources. Comme nous avons une connaissance prĂ©cise des insights qui devraient apparaĂźtre dans un rĂ©sumĂ© de Haystack et des documents qui devraient ĂȘtre citĂ©s, nous mettons en Ćuvre une Ă©valuation automatique hautement reproductible qui peut noter les rĂ©sumĂ©s sur deux aspects : la Couverture et la Citation. Nous gĂ©nĂ©rons des Haystacks dans deux domaines (conversation, actualitĂ©s) et effectuons une Ă©valuation Ă grande Ă©chelle de 10 LLM et des 50 systĂšmes RAG correspondants. Nos rĂ©sultats indiquent que SummHay est un dĂ©fi ouvert pour les systĂšmes actuels, car mĂȘme les systĂšmes dotĂ©s d'un signal Oracle de pertinence des documents sont en retard par rapport Ă notre estimation de la performance humaine (56 %) de plus de 10 points sur un Score Joint. Sans un systĂšme de rĂ©cupĂ©ration, les LLM Ă contexte long comme GPT-4o et Claude 3 Opus obtiennent des scores infĂ©rieurs Ă 20 % sur SummHay. Nous montrons que SummHay peut Ă©galement ĂȘtre utilisĂ© pour Ă©tudier les systĂšmes RAG d'entreprise et le biais de position dans les modĂšles Ă contexte long. Nous espĂ©rons que les futurs systĂšmes pourront Ă©galer et surpasser la performance humaine sur SummHay.