ChatPaper.aiChatPaper

Decodificación Guiada y su Papel Crítico en la Generación Aumentada por Recuperación

Guided Decoding and Its Critical Role in Retrieval-Augmented Generation

September 8, 2025
Autores: Özgür Uğur, Musa Yılmaz, Esra Şavirdi, Özay Ezerceli, Mahmut El Huseyni, Selva Taş, Reyhan Bayraktar
cs.AI

Resumen

La integración de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) en diversas aplicaciones ha impulsado la necesidad de respuestas estructuradas y confiables. Un desafío clave en los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) es garantizar que las salidas se ajusten a los formatos esperados mientras se minimizan las alucinaciones. Este estudio examina el papel de la decodificación guiada en los sistemas RAG, comparando tres métodos: Outlines, XGrammar y LM Format Enforcer, en diferentes configuraciones de indicaciones de múltiples turnos (0-turnos, 1-turno y 2-turnos). Al evaluar las tasas de éxito, las tasas de alucinación y la calidad de la salida, proporcionamos información sobre su rendimiento y aplicabilidad. Nuestros hallazgos revelan cómo las interacciones de múltiples turnos influyen en la decodificación guiada, descubriendo variaciones inesperadas en el rendimiento que pueden informar la selección de métodos para casos de uso específicos. Este trabajo avanza en la comprensión de la generación de salidas estructuradas en los sistemas RAG, ofreciendo tanto perspectivas teóricas como orientación práctica para la implementación de LLMs.
English
The integration of Large Language Models (LLMs) into various applications has driven the need for structured and reliable responses. A key challenge in Retrieval-Augmented Generation (RAG) systems is ensuring that outputs align with expected formats while minimizing hallucinations. This study examines the role of guided decoding in RAG systems, comparing three methods, Outlines, XGrammar, and LM Format Enforcer, across different multi-turn prompting setups (0-turn, 1-turn, and 2-turn). By evaluating success rates, hallucination rates, and output quality, we provide insights into their performance and applicability. Our findings reveal how multi-turn interactions influence guided decoding, uncovering unexpected performance variations that can inform method selection for specific use cases. This work advances the understanding of structured output generation in RAG systems, offering both theoretical insights and practical guidance for LLM deployment.
PDF62September 9, 2025