OpenDecoder: 문서 품질을 RAG에 반영하기 위한 개방형 대규모 언어 모델 디코딩
OpenDecoder: Open Large Language Model Decoding to Incorporate Document Quality in RAG
January 13, 2026
저자: Fengran Mo, Zhan Su, Yuchen Hui, Jinghan Zhang, Jia Ao Sun, Zheyuan Liu, Chao Zhang, Tetsuya Sakai, Jian-Yun Nie
cs.AI
초록
대규모 언어 모델(LLM)의 발전은 LLM 기반 검색 증강 생성(RAG)을 포함한 다양한 다운스트림 과제에서 우수한 성능을 달성했습니다. 생성된 콘텐츠의 품질은 검색된 정보의 유용성과 답변 생성에 이를 활용하는 LLM의 내부 정보 처리 메커니즘의 능력에 크게 좌우됩니다. 일반적으로 검색된 정보는 질문과 관련이 있다고 가정합니다. 그러나 검색된 정보는 질문과 문서 컬렉션에 따라 관련성과 유용성의 정도가 가변적일 수 있습니다. 답변 생성 시 검색된 정보의 관련성을 고려하는 것이 중요합니다. 본 논문에서는 생성에 대한 품질 지표 특성으로 검색된 정보의 명시적 평가를 활용하는 새로운 접근 방식인 OpenDecoder를 제안합니다. 우리는 다양한 수준의 노이즈 컨텍스트에 대해 더 강건한 RAG 모델을 구축하는 것을 목표로 합니다. 관련성 점수, 순위 점수, QPP(쿼리 성능 예측) 점수 등 세 가지 유형의 명시적 평가 정보를 고려합니다. 5개의 벤치마크 데이터셋에 대한 실험 결과는 다양한 베이스라인 방법을 능가함으로써 OpenDecoder의 효과성과 더 나은 강건성을 입증합니다. 중요한 것은, 이 패러다임은 어떤 목적이든 LLM의 사후 학습과 통합되거나 어떤 유형의 외부 지표와도 결합될 수 있는 유연성을 지닌다는 점입니다.
English
The development of large language models (LLMs) has achieved superior performance in a range of downstream tasks, including LLM-based retrieval-augmented generation (RAG). The quality of generated content heavily relies on the usefulness of the retrieved information and the capacity of LLMs' internal information processing mechanism to incorporate it in answer generation. It is generally assumed that the retrieved information is relevant to the question. However, the retrieved information may have a variable degree of relevance and usefulness, depending on the question and the document collection. It is important to take into account the relevance of the retrieved information in answer generation. In this paper, we propose OpenDecoder, a new approach that leverages explicit evaluation of the retrieved information as quality indicator features for generation. We aim to build a RAG model that is more robust to varying levels of noisy context. Three types of explicit evaluation information are considered: relevance score, ranking score, and QPP (query performance prediction) score. The experimental results on five benchmark datasets demonstrate the effectiveness and better robustness of OpenDecoder by outperforming various baseline methods. Importantly, this paradigm is flexible to be integrated with the post-training of LLMs for any purposes and incorporated with any type of external indicators.