ChatPaper.aiChatPaper

Mistral-C2F:RLHFと効果的に統合されたLLMにおける分析的推論を強化するための粗密アクターモデル

Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs

June 12, 2024
著者: Chen Zheng, Ke Sun, Xun Zhou
cs.AI

要旨

大規模言語モデル(LLMs)の進歩にもかかわらず、GPT-4やClaudeのようなモデルが示すように、LlamaやMistralなどの小規模なLLMsは、深く一貫性のある対話を生成するのに苦労することが多い。本論文では、小規模LLMsの会話能力と分析能力に内在する制限に対処するため、新たな2段階のCoarse-to-Fine Actorモデルを提案する。我々のアプローチは、Policy-based Coarse Actorから始まり、「Continuous Maximization」と呼ぶ技術を採用する。Coarse Actorは、人間の好みに合致した分析と推論のスタイルに適した、知識豊富なプールを強化する。RLHFプロセスを通じて、Continuous Maximizationという戦略を用い、出力長の制限を動的かつ適応的に拡張し、より詳細で分析的な内容の生成を可能にする。その後、Fine Actorがこの分析的な内容を洗練し、Coarse Actorから生成される過剰な冗長情報に対処する。我々は「Knowledge Residue Merger」アプローチを導入し、Coarse Actorからの内容を洗練し、既存のInstructionモデルと統合することで、品質と正確性を向上させ、冗長性を削減する。我々はこの方法論を人気のMistralモデルに適用し、Mistral-C2Fを作成した。このモデルは、11の一般的な言語タスクとMT-Bench対話タスクにおいて、同規模のモデルや13Bおよび30Bパラメータのより大規模なモデルを上回る優れた性能を発揮した。我々のモデルは、会話能力と分析的推論能力を大幅に向上させた。
English
Despite the advances in Large Language Models (LLMs), exemplified by models like GPT-4 and Claude, smaller-scale LLMs such as Llama and Mistral often struggle with generating in-depth and coherent dialogues. This paper presents a novel two-step Coarse-to-Fine Actor model to address the inherent limitations in conversational and analytical capabilities of small-sized LLMs. Our approach begins with the Policy-based Coarse Actor, employing a technique we term "Continuous Maximization". The Coarse Actor establishes an enhanced, knowledge-rich pool adept at aligning with human preference styles in analysis and reasoning. Through the RLHF process, it employs Continuous Maximization, a strategy that dynamically and adaptively extends the output length limit, enabling the generation of more detailed and analytical content. Subsequently, the Fine Actor refines this analytical content, addressing the generation of excessively redundant information from the Coarse Actor. We introduce a "Knowledge Residue Merger" approach, refining the content from the Coarse Actor and merging it with an existing Instruction model to improve quality, correctness, and reduce redundancies. We applied our methodology to the popular Mistral model, creating Mistral-C2F, which has demonstrated exceptional performance across 11 general language tasks and the MT-Bench Dialogue task, outperforming similar-scale models and even larger models with 13B and 30B parameters. Our model has significantly improved conversational and analytical reasoning abilities.

Summary

AI-Generated Summary

PDF102December 6, 2024