Обучение крупных языковых моделей сохранению контекстуальной точности с использованием синтетических задач и обучения с подкреплением
Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning
May 22, 2025
Авторы: Shuzheng Si, Haozhe Zhao, Cheng Gao, Yuzhuo Bai, Zhitong Wang, Bofei Gao, Kangyang Luo, Wenhao Li, Yufei Huang, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI
Аннотация
Обучение крупных языковых моделей (LLM) быть точными в предоставленном контексте имеет решающее значение для создания надежных систем поиска информации. Поэтому мы предлагаем систематическую структуру CANOE для повышения точности LLM как в задачах генерации коротких, так и длинных текстов без использования аннотаций человека. В частности, мы сначала синтезируем данные для коротких вопросно-ответных (QA) задач с четырьмя разнообразными заданиями, чтобы создать высококачественные и легко проверяемые обучающие данные без участия человека. Также мы предлагаем Dual-GRPO, метод обучения с подкреплением на основе правил, который включает три специально разработанных правила вознаграждения, основанных на синтезированных коротких QA данных, одновременно оптимизируя генерацию как коротких, так и длинных ответов. Важно отметить, что Dual-GRPO устраняет необходимость ручного маркирования данных предпочтений для обучения моделей вознаграждения и предотвращает избыточную оптимизацию генерации коротких текстов при использовании только синтезированных коротких QA данных. Экспериментальные результаты показывают, что CANOE значительно повышает точность LLM в 11 различных задачах, даже превосходя самые передовые LLM, такие как GPT-4o и OpenAI o1.
English
Teaching large language models (LLMs) to be faithful in the provided context
is crucial for building reliable information-seeking systems. Therefore, we
propose a systematic framework, CANOE, to improve the faithfulness of LLMs in
both short-form and long-form generation tasks without human annotations.
Specifically, we first synthesize short-form question-answering (QA) data with
four diverse tasks to construct high-quality and easily verifiable training
data without human annotation. Also, we propose Dual-GRPO, a rule-based
reinforcement learning method that includes three tailored rule-based rewards
derived from synthesized short-form QA data, while simultaneously optimizing
both short-form and long-form response generation. Notably, Dual-GRPO
eliminates the need to manually label preference data to train reward models
and avoids over-optimizing short-form generation when relying only on the
synthesized short-form QA data. Experimental results show that CANOE greatly
improves the faithfulness of LLMs across 11 different downstream tasks, even
outperforming the most advanced LLMs, e.g., GPT-4o and OpenAI o1.Summary
AI-Generated Summary