ChatPaper.aiChatPaper

Mistral-C2F: RLHF와 효과적 병합 LLM에서 분석 및 추론 능력 향상을 위한 Coarse to Fine Actor

Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs

June 12, 2024
저자: Chen Zheng, Ke Sun, Xun Zhou
cs.AI

초록

GPT-4와 Claude와 같은 모델로 대표되는 대규모 언어 모델(LLMs)의 발전에도 불구하고, Llama와 Mistral과 같은 소규모 LLMs는 깊이 있고 일관된 대화를 생성하는 데 어려움을 겪는 경우가 많습니다. 본 논문은 소규모 LLMs의 대화 및 분석 능력에 내재된 한계를 해결하기 위해 새로운 두 단계의 Coarse-to-Fine Actor 모델을 제시합니다. 우리의 접근 방식은 "Continuous Maximization"이라는 기술을 사용하는 Policy-based Coarse Actor로 시작합니다. Coarse Actor는 인간의 선호 스타일에 맞춘 분석 및 추론에 능숙한, 지식이 풍부한 강화된 풀을 구축합니다. RLHF(Reinforcement Learning from Human Feedback) 과정을 통해, Continuous Maximization 전략을 사용하여 출력 길이 제한을 동적이고 적응적으로 확장함으로써 더 상세하고 분석적인 콘텐츠를 생성할 수 있게 합니다. 이후, Fine Actor는 Coarse Actor에서 생성된 과도하게 중복된 정보의 생성을 해결하며 이 분석적 콘텐츠를 정제합니다. 우리는 "Knowledge Residue Merger" 접근 방식을 도입하여 Coarse Actor의 콘텐츠를 정제하고 기존의 Instruction 모델과 병합함으로써 품질과 정확성을 향상시키고 중복을 줄입니다. 우리는 이 방법론을 인기 있는 Mistral 모델에 적용하여 Mistral-C2F를 생성했으며, 이 모델은 11개의 일반 언어 작업과 MT-Bench 대화 작업에서 유사한 규모의 모델뿐만 아니라 13B 및 30B 매개변수를 가진 더 큰 모델을 능가하는 탁월한 성능을 보여주었습니다. 우리의 모델은 대화 및 분석적 추론 능력을 크게 향상시켰습니다.
English
Despite the advances in Large Language Models (LLMs), exemplified by models like GPT-4 and Claude, smaller-scale LLMs such as Llama and Mistral often struggle with generating in-depth and coherent dialogues. This paper presents a novel two-step Coarse-to-Fine Actor model to address the inherent limitations in conversational and analytical capabilities of small-sized LLMs. Our approach begins with the Policy-based Coarse Actor, employing a technique we term "Continuous Maximization". The Coarse Actor establishes an enhanced, knowledge-rich pool adept at aligning with human preference styles in analysis and reasoning. Through the RLHF process, it employs Continuous Maximization, a strategy that dynamically and adaptively extends the output length limit, enabling the generation of more detailed and analytical content. Subsequently, the Fine Actor refines this analytical content, addressing the generation of excessively redundant information from the Coarse Actor. We introduce a "Knowledge Residue Merger" approach, refining the content from the Coarse Actor and merging it with an existing Instruction model to improve quality, correctness, and reduce redundancies. We applied our methodology to the popular Mistral model, creating Mistral-C2F, which has demonstrated exceptional performance across 11 general language tasks and the MT-Bench Dialogue task, outperforming similar-scale models and even larger models with 13B and 30B parameters. Our model has significantly improved conversational and analytical reasoning abilities.

Summary

AI-Generated Summary

PDF102December 6, 2024