大規模言語モデルに文脈忠実性を維持させるための 合成タスクと強化学習を用いたアプローチ
Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning
May 22, 2025
著者: Shuzheng Si, Haozhe Zhao, Cheng Gao, Yuzhuo Bai, Zhitong Wang, Bofei Gao, Kangyang Luo, Wenhao Li, Yufei Huang, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
要旨
大規模言語モデル(LLM)に提供された文脈に忠実であることを教えることは、信頼性の高い情報検索システムを構築する上で極めて重要です。そこで我々は、人間のアノテーションを必要とせずに、短形式および長形式の生成タスクにおいてLLMの忠実性を向上させるための体系的なフレームワーク、CANOEを提案します。具体的には、まず4つの多様なタスクを用いて短形式の質問応答(QA)データを合成し、高品質で検証が容易なトレーニングデータを構築します。さらに、合成された短形式QAデータから導出された3つのルールベースの報酬を含む、ルールベースの強化学習手法であるDual-GRPOを提案し、短形式と長形式の応答生成を同時に最適化します。特に、Dual-GRPOは、報酬モデルをトレーニングするための選好データを手動でラベル付けする必要性を排除し、合成された短形式QAデータのみに依存する場合の短形式生成の過剰最適化を回避します。実験結果は、CANOEが11の異なる下流タスクにおいてLLMの忠実性を大幅に向上させ、最も先進的なLLM(例えばGPT-4oやOpenAI o1)を凌駕することを示しています。
English
Teaching large language models (LLMs) to be faithful in the provided context
is crucial for building reliable information-seeking systems. Therefore, we
propose a systematic framework, CANOE, to improve the faithfulness of LLMs in
both short-form and long-form generation tasks without human annotations.
Specifically, we first synthesize short-form question-answering (QA) data with
four diverse tasks to construct high-quality and easily verifiable training
data without human annotation. Also, we propose Dual-GRPO, a rule-based
reinforcement learning method that includes three tailored rule-based rewards
derived from synthesized short-form QA data, while simultaneously optimizing
both short-form and long-form response generation. Notably, Dual-GRPO
eliminates the need to manually label preference data to train reward models
and avoids over-optimizing short-form generation when relying only on the
synthesized short-form QA data. Experimental results show that CANOE greatly
improves the faithfulness of LLMs across 11 different downstream tasks, even
outperforming the most advanced LLMs, e.g., GPT-4o and OpenAI o1.Summary
AI-Generated Summary