Decodificación Guiada y su Papel Crítico en la Generación Aumentada por Recuperación
Guided Decoding and Its Critical Role in Retrieval-Augmented Generation
September 8, 2025
Autores: Özgür Uğur, Musa Yılmaz, Esra Şavirdi, Özay Ezerceli, Mahmut El Huseyni, Selva Taş, Reyhan Bayraktar
cs.AI
Resumen
La integración de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) en diversas aplicaciones ha impulsado la necesidad de respuestas estructuradas y confiables. Un desafío clave en los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) es garantizar que las salidas se ajusten a los formatos esperados mientras se minimizan las alucinaciones. Este estudio examina el papel de la decodificación guiada en los sistemas RAG, comparando tres métodos: Outlines, XGrammar y LM Format Enforcer, en diferentes configuraciones de indicaciones de múltiples turnos (0-turnos, 1-turno y 2-turnos). Al evaluar las tasas de éxito, las tasas de alucinación y la calidad de la salida, proporcionamos información sobre su rendimiento y aplicabilidad. Nuestros hallazgos revelan cómo las interacciones de múltiples turnos influyen en la decodificación guiada, descubriendo variaciones inesperadas en el rendimiento que pueden informar la selección de métodos para casos de uso específicos. Este trabajo avanza en la comprensión de la generación de salidas estructuradas en los sistemas RAG, ofreciendo tanto perspectivas teóricas como orientación práctica para la implementación de LLMs.
English
The integration of Large Language Models (LLMs) into various applications has
driven the need for structured and reliable responses. A key challenge in
Retrieval-Augmented Generation (RAG) systems is ensuring that outputs align
with expected formats while minimizing hallucinations. This study examines the
role of guided decoding in RAG systems, comparing three methods, Outlines,
XGrammar, and LM Format Enforcer, across different multi-turn prompting setups
(0-turn, 1-turn, and 2-turn). By evaluating success rates, hallucination rates,
and output quality, we provide insights into their performance and
applicability. Our findings reveal how multi-turn interactions influence guided
decoding, uncovering unexpected performance variations that can inform method
selection for specific use cases. This work advances the understanding of
structured output generation in RAG systems, offering both theoretical insights
and practical guidance for LLM deployment.