Decodificação Guiada e Seu Papel Crítico na Geração Aumentada por Recuperação
Guided Decoding and Its Critical Role in Retrieval-Augmented Generation
September 8, 2025
Autores: Özgür Uğur, Musa Yılmaz, Esra Şavirdi, Özay Ezerceli, Mahmut El Huseyni, Selva Taş, Reyhan Bayraktar
cs.AI
Resumo
A integração de Modelos de Linguagem de Grande Escala (LLMs) em diversas aplicações tem impulsionado a necessidade de respostas estruturadas e confiáveis. Um desafio fundamental nos sistemas de Geração Aumentada por Recuperação (RAG) é garantir que as saídas estejam alinhadas com os formatos esperados, minimizando ao mesmo tempo as alucinações. Este estudo examina o papel da decodificação guiada em sistemas RAG, comparando três métodos: Outlines, XGrammar e LM Format Enforcer, em diferentes configurações de prompts de múltiplos turnos (0-turn, 1-turn e 2-turn). Ao avaliar taxas de sucesso, taxas de alucinação e qualidade das saídas, fornecemos insights sobre seu desempenho e aplicabilidade. Nossos resultados revelam como as interações de múltiplos turnos influenciam a decodificação guiada, destacando variações inesperadas de desempenho que podem orientar a seleção de métodos para casos de uso específicos. Este trabalho avança a compreensão da geração de saídas estruturadas em sistemas RAG, oferecendo tanto insights teóricos quanto orientações práticas para a implantação de LLMs.
English
The integration of Large Language Models (LLMs) into various applications has
driven the need for structured and reliable responses. A key challenge in
Retrieval-Augmented Generation (RAG) systems is ensuring that outputs align
with expected formats while minimizing hallucinations. This study examines the
role of guided decoding in RAG systems, comparing three methods, Outlines,
XGrammar, and LM Format Enforcer, across different multi-turn prompting setups
(0-turn, 1-turn, and 2-turn). By evaluating success rates, hallucination rates,
and output quality, we provide insights into their performance and
applicability. Our findings reveal how multi-turn interactions influence guided
decoding, uncovering unexpected performance variations that can inform method
selection for specific use cases. This work advances the understanding of
structured output generation in RAG systems, offering both theoretical insights
and practical guidance for LLM deployment.