ChatPaper.aiChatPaper

OpenDecoder : Décodage ouvert des grands modèles de langage pour intégrer la qualité documentaire dans les systèmes RAG

OpenDecoder: Open Large Language Model Decoding to Incorporate Document Quality in RAG

January 13, 2026
papers.authors: Fengran Mo, Zhan Su, Yuchen Hui, Jinghan Zhang, Jia Ao Sun, Zheyuan Liu, Chao Zhang, Tetsuya Sakai, Jian-Yun Nie
cs.AI

papers.abstract

Le développement des grands modèles de langage (LLM) a permis d'atteindre des performances supérieures dans une série de tâches en aval, y compris la génération augmentée par récupération (RAG) basée sur les LLM. La qualité du contenu généré dépend fortement de l'utilité des informations récupérées et de la capacité du mécanisme interne de traitement de l'information des LLM à les intégrer dans la génération de réponses. On suppose généralement que les informations récupérées sont pertinentes par rapport à la question. Cependant, ces informations peuvent présenter des degrés variables de pertinence et d'utilité, selon la question et la collection de documents. Il est important de prendre en compte la pertinence des informations récupérées dans la génération des réponses. Dans cet article, nous proposons OpenDecoder, une nouvelle approche qui exploite l'évaluation explicite des informations récupérées comme indicateurs de qualité pour la génération. Notre objectif est de construire un modèle RAG plus robuste face à différents niveaux de contexte bruité. Trois types d'informations d'évaluation explicite sont considérés : le score de pertinence, le score de classement et le score QPP (prédiction de performance des requêtes). Les résultats expérimentaux sur cinq ensembles de données de référence démontrent l'efficacité et une meilleure robustesse d'OpenDecoder en surpassant diverses méthodes de référence. Surtout, ce paradigme est suffisamment flexible pour être intégré au post-entraînement des LLM à toutes fins utiles et combiné avec tout type d'indicateurs externes.
English
The development of large language models (LLMs) has achieved superior performance in a range of downstream tasks, including LLM-based retrieval-augmented generation (RAG). The quality of generated content heavily relies on the usefulness of the retrieved information and the capacity of LLMs' internal information processing mechanism to incorporate it in answer generation. It is generally assumed that the retrieved information is relevant to the question. However, the retrieved information may have a variable degree of relevance and usefulness, depending on the question and the document collection. It is important to take into account the relevance of the retrieved information in answer generation. In this paper, we propose OpenDecoder, a new approach that leverages explicit evaluation of the retrieved information as quality indicator features for generation. We aim to build a RAG model that is more robust to varying levels of noisy context. Three types of explicit evaluation information are considered: relevance score, ranking score, and QPP (query performance prediction) score. The experimental results on five benchmark datasets demonstrate the effectiveness and better robustness of OpenDecoder by outperforming various baseline methods. Importantly, this paradigm is flexible to be integrated with the post-training of LLMs for any purposes and incorporated with any type of external indicators.
PDF171January 16, 2026