ChatPaper.aiChatPaper

Große Sprachmodelle durch synthetische Aufgaben und Reinforcement Learning dazu zu bringen, kontextuelle Treue zu bewahren

Teaching Large Language Models to Maintain Contextual Faithfulness via Synthetic Tasks and Reinforcement Learning

May 22, 2025
Autoren: Shuzheng Si, Haozhe Zhao, Cheng Gao, Yuzhuo Bai, Zhitong Wang, Bofei Gao, Kangyang Luo, Wenhao Li, Yufei Huang, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
cs.AI

Zusammenfassung

Das Unterrichten großer Sprachmodelle (LLMs), im bereitgestellten Kontext treu zu bleiben, ist entscheidend für den Aufbau zuverlässiger Informationssuchsysteme. Daher schlagen wir ein systematisches Framework, CANOE, vor, um die Treue von LLMs bei sowohl kurz- als auch langformigen Generierungsaufgaben ohne menschliche Annotationen zu verbessern. Konkret synthetisieren wir zunächst kurzformige Frage-Antwort-Daten (QA) mit vier verschiedenen Aufgaben, um hochwertige und leicht überprüfbare Trainingsdaten ohne menschliche Annotation zu erstellen. Zudem schlagen wir Dual-GRPO vor, eine regelbasierte Verstärkungslernmethode, die drei maßgeschneiderte regelbasierte Belohnungen aus den synthetisierten kurzformigen QA-Daten ableitet und gleichzeitig sowohl die kurz- als auch langformige Antwortgenerierung optimiert. Bemerkenswerterweise eliminiert Dual-GRPO die Notwendigkeit, Präferenzdaten manuell zu labeln, um Belohnungsmodelle zu trainieren, und vermeidet eine Überoptimierung der kurzformigen Generierung, wenn ausschließlich auf die synthetisierten kurzformigen QA-Daten zurückgegriffen wird. Experimentelle Ergebnisse zeigen, dass CANOE die Treue von LLMs über 11 verschiedene Downstream-Aufgaben hinweg erheblich verbessert und sogar die fortschrittlichsten LLMs, wie z.B. GPT-4o und OpenAI o1, übertrifft.
English
Teaching large language models (LLMs) to be faithful in the provided context is crucial for building reliable information-seeking systems. Therefore, we propose a systematic framework, CANOE, to improve the faithfulness of LLMs in both short-form and long-form generation tasks without human annotations. Specifically, we first synthesize short-form question-answering (QA) data with four diverse tasks to construct high-quality and easily verifiable training data without human annotation. Also, we propose Dual-GRPO, a rule-based reinforcement learning method that includes three tailored rule-based rewards derived from synthesized short-form QA data, while simultaneously optimizing both short-form and long-form response generation. Notably, Dual-GRPO eliminates the need to manually label preference data to train reward models and avoids over-optimizing short-form generation when relying only on the synthesized short-form QA data. Experimental results show that CANOE greatly improves the faithfulness of LLMs across 11 different downstream tasks, even outperforming the most advanced LLMs, e.g., GPT-4o and OpenAI o1.

Summary

AI-Generated Summary

PDF105May 26, 2025