ChatPaper.aiChatPaper

Mistral-C2F: Actor de Coarse a Fine para la Mejora Analítica y de Razonamiento en RLHF y LLMs Efectivamente Fusionados

Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs

June 12, 2024
Autores: Chen Zheng, Ke Sun, Xun Zhou
cs.AI

Resumen

A pesar de los avances en los Modelos de Lenguaje a Gran Escala (LLMs), ejemplificados por modelos como GPT-4 y Claude, los LLMs de menor escala, como Llama y Mistral, a menudo tienen dificultades para generar diálogos profundos y coherentes. Este artículo presenta un novedoso modelo Actor de Dos Pasos de Coarse-to-Fine (Grueso a Fino) para abordar las limitaciones inherentes en las capacidades conversacionales y analíticas de los LLMs de pequeño tamaño. Nuestro enfoque comienza con el Actor Coarse basado en Políticas, empleando una técnica que denominamos "Maximización Continua". El Actor Coarse establece un conjunto enriquecido de conocimientos, hábil para alinearse con los estilos de preferencia humana en análisis y razonamiento. A través del proceso RLHF, utiliza la Maximización Continua, una estrategia que extiende dinámica y adaptativamente el límite de longitud de la salida, permitiendo la generación de contenido más detallado y analítico. Posteriormente, el Actor Fine refina este contenido analítico, abordando la generación de información excesivamente redundante por parte del Actor Coarse. Introducimos un enfoque de "Fusión de Residuos de Conocimiento", que refina el contenido del Actor Coarse y lo fusiona con un modelo de Instrucción existente para mejorar la calidad, la corrección y reducir las redundancias. Aplicamos nuestra metodología al popular modelo Mistral, creando Mistral-C2F, que ha demostrado un rendimiento excepcional en 11 tareas generales de lenguaje y en la tarea de Diálogo MT-Bench, superando a modelos de escala similar e incluso a modelos más grandes con 13B y 30B parámetros. Nuestro modelo ha mejorado significativamente las habilidades de razonamiento conversacional y analítico.
English
Despite the advances in Large Language Models (LLMs), exemplified by models like GPT-4 and Claude, smaller-scale LLMs such as Llama and Mistral often struggle with generating in-depth and coherent dialogues. This paper presents a novel two-step Coarse-to-Fine Actor model to address the inherent limitations in conversational and analytical capabilities of small-sized LLMs. Our approach begins with the Policy-based Coarse Actor, employing a technique we term "Continuous Maximization". The Coarse Actor establishes an enhanced, knowledge-rich pool adept at aligning with human preference styles in analysis and reasoning. Through the RLHF process, it employs Continuous Maximization, a strategy that dynamically and adaptively extends the output length limit, enabling the generation of more detailed and analytical content. Subsequently, the Fine Actor refines this analytical content, addressing the generation of excessively redundant information from the Coarse Actor. We introduce a "Knowledge Residue Merger" approach, refining the content from the Coarse Actor and merging it with an existing Instruction model to improve quality, correctness, and reduce redundancies. We applied our methodology to the popular Mistral model, creating Mistral-C2F, which has demonstrated exceptional performance across 11 general language tasks and the MT-Bench Dialogue task, outperforming similar-scale models and even larger models with 13B and 30B parameters. Our model has significantly improved conversational and analytical reasoning abilities.
PDF102December 6, 2024