ガイド付きデコーディングとその検索拡張生成における重要な役割
Guided Decoding and Its Critical Role in Retrieval-Augmented Generation
September 8, 2025
著者: Özgür Uğur, Musa Yılmaz, Esra Şavirdi, Özay Ezerceli, Mahmut El Huseyni, Selva Taş, Reyhan Bayraktar
cs.AI
要旨
大規模言語モデル(LLMs)を様々なアプリケーションに統合する中で、構造化された信頼性の高い応答の必要性が高まっています。検索拡張生成(RAG)システムにおける主要な課題は、出力が期待される形式に沿っていることを保証しつつ、幻覚(hallucination)を最小限に抑えることです。本研究では、RAGシステムにおけるガイド付きデコーディングの役割を検証し、アウトライン、XGrammar、LM Format Enforcerという3つの手法を、異なるマルチターンプロンプティング設定(0ターン、1ターン、2ターン)で比較します。成功率、幻覚率、出力品質を評価することで、これらの手法の性能と適用可能性に関する洞察を提供します。我々の調査結果は、マルチターンインタラクションがガイド付きデコーディングにどのように影響を与えるかを明らかにし、特定のユースケースにおける手法選択に役立つ予期せぬ性能の変動を発見しました。この研究は、RAGシステムにおける構造化出力生成の理解を進め、LLMの展開に関する理論的洞察と実践的なガイダンスを提供します。
English
The integration of Large Language Models (LLMs) into various applications has
driven the need for structured and reliable responses. A key challenge in
Retrieval-Augmented Generation (RAG) systems is ensuring that outputs align
with expected formats while minimizing hallucinations. This study examines the
role of guided decoding in RAG systems, comparing three methods, Outlines,
XGrammar, and LM Format Enforcer, across different multi-turn prompting setups
(0-turn, 1-turn, and 2-turn). By evaluating success rates, hallucination rates,
and output quality, we provide insights into their performance and
applicability. Our findings reveal how multi-turn interactions influence guided
decoding, uncovering unexpected performance variations that can inform method
selection for specific use cases. This work advances the understanding of
structured output generation in RAG systems, offering both theoretical insights
and practical guidance for LLM deployment.