Geleide Decodering en de Cruciale Rol ervan in Retrieval-Augmented Generation
Guided Decoding and Its Critical Role in Retrieval-Augmented Generation
September 8, 2025
Auteurs: Özgür Uğur, Musa Yılmaz, Esra Şavirdi, Özay Ezerceli, Mahmut El Huseyni, Selva Taş, Reyhan Bayraktar
cs.AI
Samenvatting
De integratie van Large Language Models (LLM's) in diverse toepassingen heeft de behoefte aan gestructureerde en betrouwbare reacties aangewakkerd. Een belangrijke uitdaging in Retrieval-Augmented Generation (RAG)-systemen is het waarborgen dat uitvoer overeenkomt met verwachte formaten, terwijl hallucinaties worden geminimaliseerd. Deze studie onderzoekt de rol van begeleide decodering in RAG-systemen, waarbij drie methoden worden vergeleken: Outlines, XGrammar en LM Format Enforcer, in verschillende multi-turn prompting-opstellingen (0-turn, 1-turn en 2-turn). Door succespercentages, hallucinatiepercentages en uitvoerkwaliteit te evalueren, bieden we inzicht in hun prestaties en toepasbaarheid. Onze bevindingen onthullen hoe multi-turn interacties begeleide decodering beïnvloeden, waarbij onverwachte prestatievariaties aan het licht komen die methodeselectie voor specifieke use cases kunnen informeren. Dit werk bevordert het begrip van gestructureerde uitvoergeneratie in RAG-systemen, en biedt zowel theoretische inzichten als praktische richtlijnen voor de implementatie van LLM's.
English
The integration of Large Language Models (LLMs) into various applications has
driven the need for structured and reliable responses. A key challenge in
Retrieval-Augmented Generation (RAG) systems is ensuring that outputs align
with expected formats while minimizing hallucinations. This study examines the
role of guided decoding in RAG systems, comparing three methods, Outlines,
XGrammar, and LM Format Enforcer, across different multi-turn prompting setups
(0-turn, 1-turn, and 2-turn). By evaluating success rates, hallucination rates,
and output quality, we provide insights into their performance and
applicability. Our findings reveal how multi-turn interactions influence guided
decoding, uncovering unexpected performance variations that can inform method
selection for specific use cases. This work advances the understanding of
structured output generation in RAG systems, offering both theoretical insights
and practical guidance for LLM deployment.