ChatPaper.aiChatPaper

Mistral-C2F: Grob zu Fein Schauspieler zur Analyse- und Denkverbesserung in RLHF und Effektiv Verschmolzene LLMs

Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs

June 12, 2024
Autoren: Chen Zheng, Ke Sun, Xun Zhou
cs.AI

Zusammenfassung

Trotz der Fortschritte bei Large Language Models (LLMs), wie sie beispielsweise bei Modellen wie GPT-4 und Claude zu sehen sind, haben kleinere LLMs wie Llama und Mistral oft Schwierigkeiten, tiefgründige und kohärente Dialoge zu generieren. In diesem Paper wird ein neuartiges zweistufiges Grob-zu-Fein-Akteur-Modell vorgestellt, um den inhärenten Einschränkungen in den konversationellen und analytischen Fähigkeiten von kleinformatigen LLMs entgegenzuwirken. Unser Ansatz beginnt mit dem Richtlinienbasierten Groben Akteur, der eine von uns als "Continuous Maximization" bezeichnete Technik einsetzt. Der Grobe Akteur etabliert einen verbesserten, wissensreichen Pool, der in der Lage ist, sich mit menschlichen Präferenzstilen in Analyse und Argumentation zu vereinigen. Durch den RLHF-Prozess verwendet er Continuous Maximization, eine Strategie, die dynamisch und adaptiv die Ausgabelängenbeschränkung erweitert und somit die Generierung von detaillierteren und analytischeren Inhalten ermöglicht. Anschließend verfeinert der Feine Akteur diese analytischen Inhalte, um die Generierung von übermäßig redundanten Informationen des Groben Akteurs zu adressieren. Wir stellen einen "Knowledge Residue Merger"-Ansatz vor, der die Inhalte des Groben Akteurs verfeinert und mit einem bestehenden Instruktionsmodell fusioniert, um Qualität, Korrektheit und Redundanzen zu reduzieren. Wir haben unsere Methodik auf das beliebte Mistral-Modell angewendet und Mistral-C2F entwickelt, das eine herausragende Leistung bei 11 allgemeinen Sprachaufgaben und der MT-Bench-Dialogaufgabe gezeigt hat und ähnlich dimensionierte Modelle sowie sogar größere Modelle mit 13B und 30B Parametern übertroffen hat. Unser Modell hat die konversationellen und analytischen Argumentationsfähigkeiten signifikant verbessert.
English
Despite the advances in Large Language Models (LLMs), exemplified by models like GPT-4 and Claude, smaller-scale LLMs such as Llama and Mistral often struggle with generating in-depth and coherent dialogues. This paper presents a novel two-step Coarse-to-Fine Actor model to address the inherent limitations in conversational and analytical capabilities of small-sized LLMs. Our approach begins with the Policy-based Coarse Actor, employing a technique we term "Continuous Maximization". The Coarse Actor establishes an enhanced, knowledge-rich pool adept at aligning with human preference styles in analysis and reasoning. Through the RLHF process, it employs Continuous Maximization, a strategy that dynamically and adaptively extends the output length limit, enabling the generation of more detailed and analytical content. Subsequently, the Fine Actor refines this analytical content, addressing the generation of excessively redundant information from the Coarse Actor. We introduce a "Knowledge Residue Merger" approach, refining the content from the Coarse Actor and merging it with an existing Instruction model to improve quality, correctness, and reduce redundancies. We applied our methodology to the popular Mistral model, creating Mistral-C2F, which has demonstrated exceptional performance across 11 general language tasks and the MT-Bench Dialogue task, outperforming similar-scale models and even larger models with 13B and 30B parameters. Our model has significantly improved conversational and analytical reasoning abilities.

Summary

AI-Generated Summary

PDF102December 6, 2024