CORAL: Benchmarking van Multi-turn Conversational Retrieval-Augmentatie GeneratieCORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation
Generation
Retrieval-Augmented Generation (RAG) is een krachtig paradigma geworden voor het verbeteren van grote taalmodellen (LLMs) door externe kennisopvraging. Ondanks de brede aandacht richt bestaand academisch onderzoek zich voornamelijk op single-turn RAG, wat een aanzienlijke lacune laat in het aanpakken van de complexiteiten van multi-turn gesprekken die worden aangetroffen in real-world toepassingen. Om deze kloof te overbruggen, introduceren we CORAL, een grootschalige benchmark ontworpen om RAG-systemen te beoordelen in realistische multi-turn conversatie-instellingen. CORAL omvat diverse informatiezoekende gesprekken die automatisch zijn afgeleid van Wikipedia en behandelt belangrijke uitdagingen zoals open-domein dekking, kennisintensiteit, vrije vorm reacties en onderwerpverschuivingen. Het ondersteunt drie kerntaken van conversational RAG: passage retrieval, response generation en citation labeling. We stellen een verenigd kader voor om verschillende conversational RAG-methoden te standaardiseren en voeren een uitgebreide evaluatie van deze methoden uit op CORAL, waarbij aanzienlijke mogelijkheden worden aangetoond voor het verbeteren van bestaande benaderingen.