ChatPaper.aiChatPaper

OpenDecoder: Apertura de la Decodificación de Modelos de Lenguaje Grandes para Incorporar la Calidad Documental en RAG

OpenDecoder: Open Large Language Model Decoding to Incorporate Document Quality in RAG

January 13, 2026
Autores: Fengran Mo, Zhan Su, Yuchen Hui, Jinghan Zhang, Jia Ao Sun, Zheyuan Liu, Chao Zhang, Tetsuya Sakai, Jian-Yun Nie
cs.AI

Resumen

El desarrollo de grandes modelos de lenguaje (LLM) ha logrado un rendimiento superior en una serie de tareas posteriores, incluida la generación aumentada por recuperación (RAG) basada en LLM. La calidad del contenido generado depende en gran medida de la utilidad de la información recuperada y de la capacidad del mecanismo interno de procesamiento de información de los LLM para incorporarla en la generación de respuestas. Generalmente se asume que la información recuperada es relevante para la pregunta. Sin embargo, la información recuperada puede tener un grado variable de relevancia y utilidad, dependiendo de la pregunta y de la colección de documentos. Es importante tener en cuenta la relevancia de la información recuperada en la generación de respuestas. En este artículo, proponemos OpenDecoder, un nuevo enfoque que aprovecha la evaluación explícita de la información recuperada como características indicadoras de calidad para la generación. Nuestro objetivo es construir un modelo RAG que sea más robusto ante distintos niveles de contexto ruidoso. Se consideran tres tipos de información de evaluación explícita: puntuación de relevancia, puntuación de clasificación y puntuación QPP (predicción del rendimiento de la consulta). Los resultados experimentales en cinco conjuntos de datos de referencia demuestran la eficacia y una mejor robustez de OpenDecoder al superar a varios métodos de referencia. Es importante destacar que este paradigma es flexible para integrarse con el post-entrenamiento de LLM para cualquier propósito e incorporarse con cualquier tipo de indicadores externos.
English
The development of large language models (LLMs) has achieved superior performance in a range of downstream tasks, including LLM-based retrieval-augmented generation (RAG). The quality of generated content heavily relies on the usefulness of the retrieved information and the capacity of LLMs' internal information processing mechanism to incorporate it in answer generation. It is generally assumed that the retrieved information is relevant to the question. However, the retrieved information may have a variable degree of relevance and usefulness, depending on the question and the document collection. It is important to take into account the relevance of the retrieved information in answer generation. In this paper, we propose OpenDecoder, a new approach that leverages explicit evaluation of the retrieved information as quality indicator features for generation. We aim to build a RAG model that is more robust to varying levels of noisy context. Three types of explicit evaluation information are considered: relevance score, ranking score, and QPP (query performance prediction) score. The experimental results on five benchmark datasets demonstrate the effectiveness and better robustness of OpenDecoder by outperforming various baseline methods. Importantly, this paradigm is flexible to be integrated with the post-training of LLMs for any purposes and incorporated with any type of external indicators.
PDF171January 16, 2026