ChatPaper.aiChatPaper

Mistral-C2F : Acteur de granularité grossière à fine pour l'amélioration analytique et raisonnée dans le RLHF et les LLMs fusionnés efficacement

Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs

June 12, 2024
papers.authors: Chen Zheng, Ke Sun, Xun Zhou
cs.AI

papers.abstract

Malgré les avancées des modèles de langage à grande échelle (LLMs), illustrées par des modèles comme GPT-4 et Claude, les LLMs de plus petite taille tels que Llama et Mistral peinent souvent à générer des dialogues approfondis et cohérents. Cet article présente un nouveau modèle en deux étapes, appelé Coarse-to-Fine Actor, pour pallier les limitations inhérentes aux capacités conversationnelles et analytiques des LLMs de petite taille. Notre approche commence avec le Coarse Actor basé sur des politiques, utilisant une technique que nous appelons "Maximisation Continue". Le Coarse Actor établit un pool enrichi en connaissances, capable de s'aligner sur les styles préférés par les humains en matière d'analyse et de raisonnement. Grâce au processus RLHF, il emploie la Maximisation Continue, une stratégie qui étend dynamiquement et de manière adaptative la limite de longueur de sortie, permettant la génération de contenus plus détaillés et analytiques. Par la suite, le Fine Actor affine ce contenu analytique, en traitant la génération d'informations excessivement redondantes provenant du Coarse Actor. Nous introduisons une approche de "Fusion des Résidus de Connaissance", qui affine le contenu du Coarse Actor et le fusionne avec un modèle d'instruction existant pour améliorer la qualité, la justesse et réduire les redondances. Nous avons appliqué notre méthodologie au modèle populaire Mistral, créant ainsi Mistral-C2F, qui a démontré des performances exceptionnelles sur 11 tâches linguistiques générales et la tâche de dialogue MT-Bench, surpassant des modèles de taille similaire et même des modèles plus grands avec 13B et 30B paramètres. Notre modèle a significativement amélioré les capacités de raisonnement conversationnel et analytique.
English
Despite the advances in Large Language Models (LLMs), exemplified by models like GPT-4 and Claude, smaller-scale LLMs such as Llama and Mistral often struggle with generating in-depth and coherent dialogues. This paper presents a novel two-step Coarse-to-Fine Actor model to address the inherent limitations in conversational and analytical capabilities of small-sized LLMs. Our approach begins with the Policy-based Coarse Actor, employing a technique we term "Continuous Maximization". The Coarse Actor establishes an enhanced, knowledge-rich pool adept at aligning with human preference styles in analysis and reasoning. Through the RLHF process, it employs Continuous Maximization, a strategy that dynamically and adaptively extends the output length limit, enabling the generation of more detailed and analytical content. Subsequently, the Fine Actor refines this analytical content, addressing the generation of excessively redundant information from the Coarse Actor. We introduce a "Knowledge Residue Merger" approach, refining the content from the Coarse Actor and merging it with an existing Instruction model to improve quality, correctness, and reduce redundancies. We applied our methodology to the popular Mistral model, creating Mistral-C2F, which has demonstrated exceptional performance across 11 general language tasks and the MT-Bench Dialogue task, outperforming similar-scale models and even larger models with 13B and 30B parameters. Our model has significantly improved conversational and analytical reasoning abilities.
PDF102December 6, 2024