ChatPaper.aiChatPaper

Mistral-C2F: Coarse to Fine Actor voor Analytische en Redeneerverbetering in RLHF en Effectief-Samengevoegde LLM's

Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs

June 12, 2024
Auteurs: Chen Zheng, Ke Sun, Xun Zhou
cs.AI

Samenvatting

Ondanks de vooruitgang in Large Language Models (LLM's), geïllustreerd door modellen zoals GPT-4 en Claude, hebben kleinere LLM's zoals Llama en Mistral vaak moeite met het genereren van diepgaande en coherente dialogen. Dit artikel presenteert een nieuw tweestaps Coarse-to-Fine Actor-model om de inherente beperkingen in conversatie- en analytische vaardigheden van kleinschalige LLM's aan te pakken. Onze aanpak begint met de Policy-based Coarse Actor, waarbij we een techniek gebruiken die we "Continuous Maximization" noemen. De Coarse Actor creëert een verrijkte, kennisrijke pool die goed is in het afstemmen op menselijke voorkeuren in analyse en redenering. Via het RLHF-proces past het Continuous Maximization toe, een strategie die dynamisch en adaptief de uitvoerlengtelimiet uitbreidt, waardoor meer gedetailleerde en analytische inhoud kan worden gegenereerd. Vervolgens verfijnt de Fine Actor deze analytische inhoud en gaat het in op de generatie van overmatig redundante informatie van de Coarse Actor. We introduceren een "Knowledge Residue Merger"-benadering, waarbij de inhoud van de Coarse Actor wordt verfijnd en samengevoegd met een bestaand Instructie-model om de kwaliteit en correctheid te verbeteren en redundantie te verminderen. We hebben onze methodologie toegepast op het populaire Mistral-model, waardoor Mistral-C2F is ontstaan, dat uitzonderlijke prestaties heeft laten zien in 11 algemene taaltaken en de MT-Bench Dialogue-taak, en daarbij vergelijkbare modellen en zelfs grotere modellen met 13B en 30B parameters overtreft. Ons model heeft de conversatie- en analytische redeneervaardigheden aanzienlijk verbeterd.
English
Despite the advances in Large Language Models (LLMs), exemplified by models like GPT-4 and Claude, smaller-scale LLMs such as Llama and Mistral often struggle with generating in-depth and coherent dialogues. This paper presents a novel two-step Coarse-to-Fine Actor model to address the inherent limitations in conversational and analytical capabilities of small-sized LLMs. Our approach begins with the Policy-based Coarse Actor, employing a technique we term "Continuous Maximization". The Coarse Actor establishes an enhanced, knowledge-rich pool adept at aligning with human preference styles in analysis and reasoning. Through the RLHF process, it employs Continuous Maximization, a strategy that dynamically and adaptively extends the output length limit, enabling the generation of more detailed and analytical content. Subsequently, the Fine Actor refines this analytical content, addressing the generation of excessively redundant information from the Coarse Actor. We introduce a "Knowledge Residue Merger" approach, refining the content from the Coarse Actor and merging it with an existing Instruction model to improve quality, correctness, and reduce redundancies. We applied our methodology to the popular Mistral model, creating Mistral-C2F, which has demonstrated exceptional performance across 11 general language tasks and the MT-Bench Dialogue task, outperforming similar-scale models and even larger models with 13B and 30B parameters. Our model has significantly improved conversational and analytical reasoning abilities.
PDF102February 7, 2026