ChatPaper.aiChatPaper

Mistral-C2F: Ator de Coarse para Fine para Aprimoramento Analítico e de Raciocínio em RLHF e LLMs Efetivamente Fundidos

Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs

June 12, 2024
Autores: Chen Zheng, Ke Sun, Xun Zhou
cs.AI

Resumo

Apesar dos avanços nos Modelos de Linguagem de Grande Escala (LLMs), exemplificados por modelos como GPT-4 e Claude, LLMs de menor escala, como Llama e Mistral, frequentemente enfrentam dificuldades para gerar diálogos profundos e coerentes. Este artigo apresenta um novo modelo de Ator de Duas Etapas, do Grosso ao Fino, para abordar as limitações inerentes nas capacidades conversacionais e analíticas de LLMs de pequeno porte. Nossa abordagem começa com o Ator Grosso baseado em Política, empregando uma técnica que denominamos "Maximização Contínua". O Ator Grosso estabelece um pool aprimorado e rico em conhecimento, capaz de se alinhar com estilos de preferência humana em análise e raciocínio. Por meio do processo RLHF, ele utiliza a Maximização Contínua, uma estratégia que estende dinamicamente e de forma adaptativa o limite de comprimento da saída, permitindo a geração de conteúdo mais detalhado e analítico. Posteriormente, o Ator Fino refina esse conteúdo analítico, abordando a geração de informações excessivamente redundantes pelo Ator Grosso. Introduzimos uma abordagem de "Fusão de Resíduo de Conhecimento", refinando o conteúdo do Ator Grosso e mesclando-o com um modelo de Instrução existente para melhorar a qualidade, a correção e reduzir redundâncias. Aplicamos nossa metodologia ao popular modelo Mistral, criando o Mistral-C2F, que demonstrou desempenho excepcional em 11 tarefas gerais de linguagem e na tarefa de Diálogo MT-Bench, superando modelos de escala similar e até mesmo modelos maiores com 13B e 30B de parâmetros. Nosso modelo melhorou significativamente as habilidades de raciocínio conversacional e analítico.
English
Despite the advances in Large Language Models (LLMs), exemplified by models like GPT-4 and Claude, smaller-scale LLMs such as Llama and Mistral often struggle with generating in-depth and coherent dialogues. This paper presents a novel two-step Coarse-to-Fine Actor model to address the inherent limitations in conversational and analytical capabilities of small-sized LLMs. Our approach begins with the Policy-based Coarse Actor, employing a technique we term "Continuous Maximization". The Coarse Actor establishes an enhanced, knowledge-rich pool adept at aligning with human preference styles in analysis and reasoning. Through the RLHF process, it employs Continuous Maximization, a strategy that dynamically and adaptively extends the output length limit, enabling the generation of more detailed and analytical content. Subsequently, the Fine Actor refines this analytical content, addressing the generation of excessively redundant information from the Coarse Actor. We introduce a "Knowledge Residue Merger" approach, refining the content from the Coarse Actor and merging it with an existing Instruction model to improve quality, correctness, and reduce redundancies. We applied our methodology to the popular Mistral model, creating Mistral-C2F, which has demonstrated exceptional performance across 11 general language tasks and the MT-Bench Dialogue task, outperforming similar-scale models and even larger models with 13B and 30B parameters. Our model has significantly improved conversational and analytical reasoning abilities.
PDF102December 6, 2024