CORAL: Benchmarking für Multi-Turn Konversationsabruf-Erweiterung-GenerierungCORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation
Generation
Die Retrieval-gestützte Generierung (RAG) ist zu einem leistungsstarken Paradigma geworden, um große Sprachmodelle (LLMs) durch die externe Wissensabfrage zu verbessern. Trotz ihrer weit verbreiteten Aufmerksamkeit konzentrieren sich bestehende wissenschaftliche Untersuchungen hauptsächlich auf den Einzelturn-RAG, was eine signifikante Lücke bei der Bewältigung der Komplexitäten von Mehrturn-Gesprächen in Anwendungen der realen Welt hinterlässt. Um diese Lücke zu schließen, stellen wir CORAL vor, einen groß angelegten Benchmark, der entwickelt wurde, um RAG-Systeme in realistischen Mehrturn-Gesprächssituationen zu bewerten. CORAL umfasst vielfältige informationsuchende Gespräche, die automatisch aus Wikipedia abgeleitet wurden, und behandelt Schlüsselherausforderungen wie die Abdeckung im Open Domain, Wissensintensität, freie Antwortformen und Themenwechsel. Es unterstützt drei Kernaufgaben des konversationellen RAG: Passagenabruf, Antwortgenerierung und Zitationskennzeichnung. Wir schlagen einen einheitlichen Rahmen vor, um verschiedene konversationelle RAG-Methoden zu standardisieren und führen eine umfassende Bewertung dieser Methoden auf CORAL durch, was erhebliche Möglichkeiten zur Verbesserung bestehender Ansätze aufzeigt.