Mistral-C2F: Attore da Grossolano a Fine per il Potenziamento Analitico e del Ragionamento in RLHF e LLM Fusi Efficaci

Abstract

Nonostante i progressi nei Large Language Models (LLM), esemplificati da modelli come GPT-4 e Claude, i LLM di scala ridotta come Llama e Mistral spesso incontrano difficoltà nel generare dialoghi approfonditi e coerenti. Questo articolo presenta un innovativo modello a due fasi Coarse-to-Fine Actor per affrontare le limitazioni intrinseche nelle capacità conversazionali e analitiche dei LLM di piccole dimensioni. Il nostro approccio inizia con il Coarse Actor basato su policy, che utilizza una tecnica da noi denominata "Massimizzazione Continua". Il Coarse Actor stabilisce un pool arricchito di conoscenze, abile nell'allinearsi agli stili di preferenza umana nell'analisi e nel ragionamento. Attraverso il processo RLHF, impiega la Massimizzazione Continua, una strategia che estende dinamicamente e in modo adattivo il limite di lunghezza dell'output, consentendo la generazione di contenuti più dettagliati e analitici. Successivamente, il Fine Actor affina questo contenuto analitico, affrontando il problema della generazione di informazioni eccessivamente ridondanti da parte del Coarse Actor. Introduciamo un approccio chiamato "Fusione del Residuo di Conoscenza", che perfeziona il contenuto del Coarse Actor e lo fonde con un modello di istruzione esistente per migliorare la qualità, la correttezza e ridurre le ridondanze. Abbiamo applicato la nostra metodologia al popolare modello Mistral, creando Mistral-C2F, che ha dimostrato prestazioni eccezionali in 11 task linguistici generali e nel task di dialogo MT-Bench, superando modelli di scala simile e persino modelli più grandi con 13B e 30B parametri. Il nostro modello ha migliorato significativamente le capacità di ragionamento conversazionale e analitico.

English

Despite the advances in Large Language Models (LLMs), exemplified by models like GPT-4 and Claude, smaller-scale LLMs such as Llama and Mistral often struggle with generating in-depth and coherent dialogues. This paper presents a novel two-step Coarse-to-Fine Actor model to address the inherent limitations in conversational and analytical capabilities of small-sized LLMs. Our approach begins with the Policy-based Coarse Actor, employing a technique we term "Continuous Maximization". The Coarse Actor establishes an enhanced, knowledge-rich pool adept at aligning with human preference styles in analysis and reasoning. Through the RLHF process, it employs Continuous Maximization, a strategy that dynamically and adaptively extends the output length limit, enabling the generation of more detailed and analytical content. Subsequently, the Fine Actor refines this analytical content, addressing the generation of excessively redundant information from the Coarse Actor. We introduce a "Knowledge Residue Merger" approach, refining the content from the Coarse Actor and merging it with an existing Instruction model to improve quality, correctness, and reduce redundancies. We applied our methodology to the popular Mistral model, creating Mistral-C2F, which has demonstrated exceptional performance across 11 general language tasks and the MT-Bench Dialogue task, outperforming similar-scale models and even larger models with 13B and 30B parameters. Our model has significantly improved conversational and analytical reasoning abilities.

Mistral-C2F: Attore da Grossolano a Fine per il Potenziamento Analitico e del Ragionamento in RLHF e LLM Fusi Efficaci

Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs

Abstract

Support